Bonjour,
il y a longtemps tu avais réussi a faire une comparaison de 2 textes sur WS.
J’aurais besoin d’une comparaison entre les 2 figurant sur cette page, est-ce possible. Merci
La discussion précédente a été archivée dans Discussion utilisateur:Cunegonde1/Archive 1 le 2018-11-09.
Bonjour,
il y a longtemps tu avais réussi a faire une comparaison de 2 textes sur WS.
J’aurais besoin d’une comparaison entre les 2 figurant sur cette page, est-ce possible. Merci
Bonjour @Le ciel est par dessus le toit, j'ai regardé le premier chapitre, les différences sont surtout de forme et le texte sans scan, n'a visiblement pas été corrigé avant import. Exemple
*Texte sans scan : « On ne trouvera aucune trappe, et le mystère de la «Chambre Jaune» deviendra de plus, plus en plus mystérieux.
*Texte avec scan : « On ne trouvera aucune trappe, et le mystère de la « Chambre Jaune » deviendra de plus en plus mystérieux.
ok je te remercie, je vais mettre un lien dans ma pdd pour ne pas oublier
@Le ciel est par dessus le toit Je pense avoir trouvé la source, si c'est bien ce qui est indiqué en PDD : https://books.google.com/books?id=QevDtD4NW4kC&pg=PP7&dq=Illustration.+1907:+Jul.-Dec.&hl=fr&newbks=1&newbks_redir=0&sa=X&ved=2ahUKEwinmNfF-OuCAxW-QjABHWm0As8Q6AF6BAgFEAI#v=onepage&q=Illustration.%201907%3A%20Jul.-Dec.&f=false, si c'est ok, je peux l'importer. Dans l'édition de l'Illustration, Rouletabille s'appelle Boitabille.
Ce n’estpas le bon, celui-ci il me semble que nous l’avons déjà, mais daté 1932, celui que je cherche aurait été publié dans le supplément de l’illustration, voir pdd du texte sans fs.
Attention, dans l'édition de 1907 "Illustration: (Paris, France). Supplément roman" avec le lien ci-dessus, il me semble que c'est la première édition, puisque Rouletabille s'appelle encore Boitabille.
bonjour,
Je viens de corriger Livre:Banville - Hymnis, 1880.djvu et avant de transclure, vu le message de prévention, ma main tremble. Je me demande donc si je peux écraser le texte maintenant sans m'attirer les foudres de Wikisource ?
Merci !
Pourquoi trembler ? Si les pages ont été correctement corrigées en tenant compte des règles en vigueur sur WS, il n'y a aucune raison . Bonne transclusion donc, sinon pour vérifier que tout est conforme à vos souhaits, vous pouvez faire un test de transclusion dans une page de brouillon. En plus les contributeurs de WS ne sont pas tellement foudroyants (et heureusement) comparés à ceux de WP.
Bonjour, j'espère pas te prendre trop de temps avec cette question mais c'est vrai que tu fais du super job avec la préparation de fac-similé et je me demandais vraiment comment tu arrivais à de tels résultats. Je viens de voir la réponse que tu as fait hier à Étienne M mais j'ai pas eu le temps de la tester de mon côté.
Avant ça j'ai essayé d'autres méthodes pour un ouvrage que j'ai récupéré d'Internet Archive : Raphaël de Romain Coolus. J'ai premièrement essayé de faire une façon que tu avais donné dans le scriptorium : j'ai téléchargé le pdf de IA, l'ai océrisé avec ocrmypdf et ensuite j'ai transformé le tout en djvu avec pdf2djvu. Le seul hic, c'est que la qualité de l'OCR reste à désirer.... (notamment les "t" qu'il remplace par des "r") Je sais pas comment tu fais pour améliorer sa qualité...
Sinon, j'ai tenté de suivre le guide de SyB~Anicium : j'ai transformé le pdf en jpgs, j'ai utilisé scantailor pour recadrer les images et avec DjvuToy j'ai reconstruit le fichier djvu. Le problème : la qualité était horrible (tout était flou et illisible) alors que j'avais gardé 600 de dpi et le paramètre colors pour l'output.
Voilà, c'est pour ça que je voulais savoir si tu arrivais à un peu mieux m'éclairer sur comment faire pour améliorer mon travail de préparation de fac-similé pour éviter à avoir toujours à solliciter ton aide à l'avenir
P. S. : je me rappelle aussi que tu avais parlé de cette ligne pour transformer les pdf en djvu pdf2djvu -o outputfile.djvu -j0 --fg-colors=black --dpi=300 --lines inputfile.pdf
Pourtant, quand je l'ai utilisé, mon djvu était quadrillé avec des lignes noires.... J'ai retiré les éléments --fg-colors=black
et --lines
pour obtenir un djvu "normal". Tu sais pourquoi c'est arrivé ?
Bonjour @Rafavannay, je n'utilise pas DjvuToy pour créer les djvu (j'ai essayé et les résultats ne me satisfaisaient pas). Je fais cela soit avec la ligne de commande ci-dessus, mais moi j'ai le problème du quadrillage quand j'utilise le paramètre --monocolor a tester aussi différentes résolutions j'utilise en général soit 600dpi soit 300dpi.
Les méthodes que j'utilise sont diverses et je les adapte en fonction du contexte. Pour les fichiers très soignés, j'utilise Abbyy-Finereader qui permet de définir finement les zones de reconnaissance, je l'ai dressé pour les textes du XVIIIe siècle avec s longs et j'édite la couche texte dont je corrige les caractères que le logiciel reconnaît comme douteux (cela prend évidemment du temps), puis je vérifie une série de scanilles connues.
Sinon avec tesseract, quand je veux faire un travail soigné, j'édite le fichier xml issu du DjVu (commande djvutoxml MonFichier.djvu MonFichier.xml
Je le corrige avec une série de regex reprenant la plupart des scanilles connues, je vérifie l'orthographe (le tout en évitant d'abîmer la structure du fichier) et une fois cela terminé, je réinjecte la couche texte avec la commande djvuxmlparser -o MonFichier.djvu MonFichier.xml
. Il peut y avoir une erreur et le script indique la ligne où elle se trouve ce qui permet de la rectifier.
Toutes ces opérations prennent beaucoup de temps, c'est pourquoi je ne le fais pas sur les revues qui comprennent des milliers de page.
Merci @Cunegonde1 de ta réponse. J'avais toutefois deux questions qui en découlent : quand je vais sur leur site, Abbyy-Finereader demande de payer pour avoir leur license et les seules offres gratuites sont des démos de quelques jours... As-tu payé la license ou as-tu trouvé une autre version en ligne ?
Sinon, c'est vrai que je n'avais jamais entendu parler de regex avant aujourd'hui et j'ai été voir sur le scriptorium les discussions où vous en parliez mais à vrai dire c'est assez difficile à lire pour moi pour l'instant (va falloir que je prenne la main !) Comment est-ce que ça s'utilise concrétement ? Tu l'utilises comme un mémo des scanilles fréquentes que tu vérifies manuellement ou est-ce que tu peux la mettre dans un programme qui vérifie tout seul ? (et je pense que tu as fait toi-même ton regex, ou alors il y en a déjà un que je peux prendre comme modèle ?)
Merci encore de tes conseils, c'est vraiment très intéressant et informatif !!!
@Rafavannay Pour les regex, c'est un langage totalement abscons dont l’apprentissage n'est pas si difficile si on est patient, j'ai démarré avec ce tutoriel. Celle que j'utilise cherche pas mal de scanilles il faut la copier dans le champ de recherche d'un éditeur de texte en précisant que c'est une expression régulière :
(\>| |-)(VÉ|\//|àla|ime|a (celle|cette|ne|[mts]on|[nv]os|leurs?|part|([a-zà-ÿ]+er)|([a-zà-ÿ]+re)|([a-zà-ÿ]+ire?))|(11)(?! (janvier|février|mars|avril|mai|juin|juillet|août|septembre|octobre|novembre|décembre))|1[aeul]|afli|ail|([a-zà-ÿ]+ail)((?<!travail|sérail|détail))|(?<![Uu]n |deux |trois |quatre |cinq |six |sept |huit |neuf |dix |onze |douze |treize |quatorze |quinze |seize |cent |mille |par )ans?|aide|arec|aorte|atout|au(dessus|dessous|del[aà])|[Aa]pres|(\s|l’)antre|aue|avals|aveo|Get?|ayec|bâter|bâta|bâtes?|bâtent|bêles?|boite|bottes?|on effet|c[’']a|ca|chaine|déchaine|cardan|carie|celai|[Gg]ela|[Cc]elte|([Cc]elle)(?!( à| du| d’| de| dont| où| qu[ei]| qu’|-ci|-là|-la))|[Cc]ette(-ci|-l[aà]| de| du| qu[ei])|cl|[Cc]lames?|clans|clic|cloutes?|clouter|co|cola|[Cc]onnue|cote|coté|cotte|da|daines?|dés?|(?<![Aa]u |[Aa]u-)del[aà]|déplus|de[39]|dévoient|do|dont ou|(?<!du |le |leur |mon |ton |son )dos(?! à)|dune|dupassé|ea|([Ii]l|[Ee]lle) écoulait|([Ee]h)(?!( bien| donc| quoi| non| oui| que| |,|\!))|[Ee]lé?|[Éé]liez|échiné|éludes?|(?<![DLMCSdlmsc]es |[Nn]os |[Uu]ne |[MSTmst]on |[Cc]ette |[Qq]elques |[Ll]eurs )études?|enl|en roule|entant|esi|épouvantait|estce|étalent|é[lt]alt?|étes|([Ee]u) ((proie|effet|hiver|automne|terre|général|route|marche|est|[a-zà-ÿ]+ant)|[A-ZÉÈ])|évoque|Fart|Fauteur|fat?|faîte|fdle?|fiançais|f[ïî]t|(?<!le |ce |un )fil|Fo|foire|fondions|foret|fouie|fols|fout (([a-zà-ÿ]+er|[a-zà-ÿ]+re|[a-zà-ÿ]+ire?))|([Ii]l|[Ee]lle|[Oo]n) fui|Ggela|foutes|je tous|gène|glus|[Gg]omme|[Gg]omment|gu[ei]|Hais|heu|honnète|I('|’)|I[89]|[Ii]i|ilua|im|incuite|([Cc]e|[Ll]e|[ad]u|[Uu]n) inonde|jo('|’)|l('|’)aire|l('|’)eut|lâcheuses?|ajoure|lactique|lai|lait|lait(s|es?)|lapis|([Pp]lus|trop) lard|lard|laveur|lavu|lemmes?|l[éè]s?|lésa|le[39]|(?<!me |il | elle |te |se |le |on |lui |les |nous |et |qui |vous |la |s['’]y |une )lie|eu lien|lien(?!( de))|lient|lièvres?|ligures?|ll|([Aa]u|eu|donné|[Ll]e) [Hh]eu|([Uu]ne|[Ss]ans|[La]) lin|([Uu]ne|[Cc]ette|première|dernière|la) lois|lous|luf|(?<!la |une )lune|maia|ma[ït]s|malin|médian|[Mm]ème|mil|mimes|mo[lru]|môme|motie|moulons?|moyeu|ni[ae]|niasse|niais|npu|(?<![[Jj]e |[Tt]u |[Ii]l |[On]n |[Ee]lle |[Vv]ous |[DMTSdmtsl]e )nomme[sr]?|onl|oti|ôtes-vous|ôtes|O/O|on (avant|arrière|ce|ces)|[PFT]onde|[Aa]vec on|([Qq]uand|dont) ou|Pair|[Pp]ais|parait|parce (temps|moyen|biais)|par exempte|(?<!ne )(parle)(?!( ainsi| avec| dans| de| du| au| d’| pas| comme| donc| lui| pour| l[ae]|,| |\.))|paries?|Pavons|perle|peul|pins|Po|pondant|prés?|prèle|profil(é|er|a|èrent)|pue|Qh|[Qq]uanta|qni|[Qq]uelles? (?!que|qu’elles?|[a-zà-ÿ]+ance|[a-zà-ÿ]+ence|[a-zà-ÿ]+esse|[a-zà-ÿ]+eur|[a-zà-ÿ]+euse|[a-zà-ÿ]+ité|[a-zà-ÿ]+tion|[a-zà-ÿ]+iere?|[a-zà-ÿ]+ier)|[Qq]uelquil|raffaire|raill(e|ion|ions)|relira(it|is)|rembarras|à rencontre|rendezvous|rengagement|(à|de) rentrée|retendue|rétablissement|renti|rho|rie|rivai|rl|roules?|(r|R)rouie|saris|soldais?|sons l[ae]|[Ss]ou|sc|scs|sdr|se mil|tais-loi|Tan|Tannée|taudis que|ternies?|tète|tilles?|tf|Tl|tn|tins?|Ton|[Tt]ontes?|[Tt]onte|tout à lait|toule?|Tordre|[Tt]une|(?<!dét|trav|Trav)ail|[uù]|U[st]|Eu|v|[Vv]oila|vêlements?|(je|tu|ne) yeux|1’(\p{L}+))( |\s|\.|,|…|-| \?| :|\<)
J'en utilise également d'autres en complément, plus spécialisées par exemple pour les textes du 18e siècle, etc.
A copier telle quelle, ne surtout pas enlever les espaces.
J'ai la version 15 pour windows que j'ai payé fort cher je crois que c'était 300€ à l'époque.
Ah oui.... tu le voulais ce programme (et merci pour le regex !)
Bonjour, j’ai rajouter une vingtaine de fs pour Wikisource:Facsimilé à intégrer. Fais ça quand tu auras le temps.
Par contre si tu pouvais m’importer le #2452 assez rapidement, ce serait super.
A vrai dire je m’ennui un peu et je n'ai pas le gout pour corriger en ce moment ;)
@Le ciel est par dessus le toit Ok, je fais le 2452 en priorité, et les autres par la suite, car en ce moment je prépare et j'importe les numéros manquants en djvu du Mercure de France, et c'est un gros chantier (ne serait-ce que pour récupérer les fichiers sur hathi-trust c'est assez galère avec la nouvelle version de leur site qui fonctionne assez mal avec Hathi Download Helper.
@Le ciel est par dessus le toit j'ai fait le manequin, il est prêt pour l'upload, et en faisant la fiche d'information, je me suis rendu compte que l'illustrateur, Frédéric Front, est mort en 1962 cf. https://www.wikidata.org/wiki/Q90257415. Que faire ? Sans les illustrations, cela a peu d'intérêt non ?
Alors les dates sur WD ont été changées, il y a quelques années.
Les images sont sur Commons depuis 2006.
toutes les illustration ne sont pas de Frédéric FRONT, mais il est impossible de savoir lesquelles.
Je me dis qu’il faut importé sur WS pour éviter toute surprise.
@Le ciel est par dessus le toit Ok, je fais comme ça : Livre:Riotor - Le Mannequin, 1900.djvu.
Bonjour Cunegonde ! En cours de révision d'une série, je m'aperçois qu'un volume a un doublon : serait-ce possible pour toi de corriger en supprimant ce doublon ?
Aussi, j'avais téléchargé ce fs de Gallica en pdf il y a 4 ans, et je m'étonne de sa taille : 183,87 Mio, alors que ce n'est que du texte à l'exception d'une page, et toutes en noir et blanc !! Je ne sais pas s'il était possible de réduire sa taille par une meilleure compression... Quand je le convertis en DjVu sur pdfonline.org, c'est encore pire au niveau de son poids...
Belle journée à toi !
Bonjour @Etienne M. Je vais voir ce que je peux faire, le mieux serait de créer un djvu à partir des images sources de Gallica. Une fois cet import réalisé, on peut récupérer les pages déjà corrigées et ensuite demander la suppression du fichier pdf sur WS et sur Commons. Pour le poids du livre, c'est dû au fait que c'est en niveaux de gris et non en noir et blanc. Je convertirai les images en noir et blanc pour limiter le poids total du fichier. Il faudra juste être un peu patient car c'est un gros fichier qui demandera un travail préparatoire assez long. Je vais aussi vérifier que des problèmes de paginations ne se trouvent pas également ailleurs dans le fichier.
Etienne M : C'est prêt, j'ai fait un djvu en noir et blanc qui pèse 39Mio en 600dpi. : Livre:Brunot - Histoire de la langue française, des origines à 1900 — Tome 4, Première partie, 1939.djvu. Je te laisse faire les copies des pages déjà corrigées et les demandes de suppression du pdf.
Whaou ! Un très grand merci, Cunegonde. Encore une fois, tu facilites le travail sur les fac-similés ! J'ai renommé les pages de l'autre fichier trop lourd. Je te remercie de m'avoir donné la cause du poids du fichier : j'ignorais que le mode "niveaux de gris" pouvait à ce point alourdir par rapport au mode "noir et blanc"... Pour alléger ce fichier, as-tu fait une autre manip ? J'ai en effet d'autres DjVu que j'aimerais verser dans Commons, mais qui sont beaucoup trop lourds… J'ai le logiciel DjVuToy et je peux faire de nouvelles manips ! Bonne nuit à toi, en te remerciant.
Bonjour @Etienne M comme d'habitude, j'ai exécuté les opérations suivantes :
J'aurai pu diviser par 2 le poids du fichier djvu final en choisissant à la dernière étape une résolution de 300 dpi.
Bonsoir Cunegonde1 !
Merci de m'avoir indiqué ton procédé que j'aimerais suivre à partir de maintenant !
J'ai téléchargé Scantailor, et Python 3 demandé par le script de @Seudo. Par contre, je n'ai pas réussi à comprendre comment on crée un fichier "gallica.py" sur Python : c'est une "invite de commande", j'y ai copié le code et avec un clic droit : "Exporter le texte" et je me retrouve avec un document texte (.txt)… Comme je ne suis pas connaisseur, j'attends de voir si Seudo pourra m'éclairer là-dessus.
Il me tarde de pouvoir faire ces conversions de fichier, mais aucun soucis si j'ai sa réponse plus tard. C'est pour importer plusieurs des ouvrages présents dans Wikisource:L'école d'Ancien régime#À importer (présents sur internet) dont je présenterai certains passages si je suis retenu pour un colloque. :D
Enfin, j'imagine que la résolution de 600 dpi permet une + grande reconnaissance de caractères lors de l'océrisation ?
Belle soirée à toi !
@Etienne M Avec Gallica.py, il faut copier le code de Seudo et le coller dans un fichier texte intitulé Gallica.py. Si la terminaison est différente, cela ne fonctionne pas on change donc la terminaison .txt par .py. Il faut ensuite modifier les droits du fichier Gallica.py ainsi créé pour lui donner des droits d'exécution. Ensuite on copie ce fichier dans un nouveau dossier dans lequel seront stockées les images de page téléchargées sur Gallica. Ensuite, toujours dans ce dossier on appelle une invite de commande via un terminal type sous linux ou cmd sous windows en indiquant la commande suivante (la commande que j'ai copiée pour le dernier import que j'ai fait) : python3 gallica.py bpt6k64340467 1 698
et normalement cela fonctionne. Si cela ne fonctionne pas s'assurer que le terminal est bien ouvert dans le dossier dans lequel se trouve le fichier Gallica.py.
Oui, toutefois je ne pense pas qu'il soit nécessaire de donner des droits d'exécution au fichier gallica.py, puisque l'exécutable est python3
(ou python.exe
, selon la version de Python et le système d'exploitation).
Bonjour et merci beaucoup Cunegonde et Seudo !
Ca y est, j'ai réussi ! Je me suis fait aider par un collègue pour Python, et ai pu enregistrer la commande grâce à Python en ligne.
Voilà le 1er scan que j'ai pu réaliser avec ta commande et ton tuto, Seudo, et tes conseils précieux, Cunegonde : Methode nouvelle, pour apprendre aux enfants.
Je l'ai fait passer par DjVuToy pour le convertir en DjVu et l'océriser, mais l'océrisation n'a pas fonctionné, ce n'est pas grave maintenant qu'on a le gadget "transcrire le texte" page après page.
Beau week-end à vous deux !!
Bonjour Cunégonde, je m'adresse à toi parce que tu m'avais aidé voici quelques mois avec un livre de Stendhal à uploader et OCRiser. Tu m'avais alors donné quelques conseils, et j'ai tenté d'en suivre au moins quelques-uns cette fois, mais le résultat n'est pas complètement au rendez-vous. L'idée était d'uploader ce livre à partir de la version Gallica, sur wikisource même et non sur commons vu la date d'édition. Le problème est aussi que je travaille en ce moment sur un ordi pro où je ne peux pas installer de programmes ou faire tourner du pythoon, me rendant dépendant des outils en ligne. Je me suis donc contenté du téléchargement pdf gallica de base, et l'ai fait passé par l'outil PDFtoDjVu. Le fichier DjVu obtenu était trois fois moins lourd que le PDF, je l'ai téléversé comme prévu. Ce n'est qu'après avoir commencé de construire l'index que j'ai réalisé qu'un bon tiers des pages avait sauté ! J'imagine que cela s'est produit à la création du DjVu et non plus tard.
Je viens donc à toi implorer de me sauver (ou plutôt ce pauvre livre) de ce mauvais pas. J'imagine qu'il faut reprendre depuis le départ, et que tes outils et ton savoir-faire te permettront d'éviter les écueils où j'ai sombré... Rien d'urgent, j'ai encore bien du travail sur d'autres volumes des OC de Péguy, sans compter Flaubert et les autres... J'ai quelques autres volumes sur Gallica ou IA dans ma liste pour plus tard, si tu pouvais aussi m'aider avec eux à un moment ou à un autre, dis-moi, je le ferais bien moi-même, mais j'ai un gros doute sur mes capacités en la matière. Dis-moi, je peux te faire une petite liste au cas où. Merci en tout cas infiniment si tu peux déjà m'aider à réparer le bazar que j'ai créé malgré moi sur ce livre-ci...
Bonjour, Susuman77 :, j'ai récupéré les images source du livre sur Gallica, et je suis en train de le traiter (préparation des images avec scantailor, ocr avec Abby Finereader). Normalement, je le téléverserai sur WS demain. Certains utilisateurs ont déjà remarqué que les outils en ligne ne sont pas bien fiables. Pas de problème pour ta liste (si elle n'est pas gigantesque), je téléverserai les fichiers au fil du temps en tenant compte de mes autres projets.
Merci beaucoup !!! Je fouille un peu, j'essaie de te faire une petite liste d'ici demain, ce qui peut manquer pour Péguy et Stendhal, moins d'une dizaine à coup sûr...
Susuman77 : C’est fait, j'ai importé le fac-similé entier, toutefois, les pages 170-171 sont manquantes. J'ai collé p. 170 le texte manquant récupéré sur l’édition de 1911 Gallica, la pagination de cette édition étant différente, on ne peut pas remplacer les images de pages manquantes. J'ai détouré et passé les pages en noir et blanc, l'OCR a été fait avec Abbyy Finereader, et les principales scanilles (et non coquilles) ont été corrigées en amont de l'import. Bonne correction. Pour voir les différences, il faut purger le livre soit avec le bouton dans l'onglet "Plus" en haut à droite ou en ajoutant ?action=purge à la fin de l'url.
Merci beaucoup ! Nos messages se sont croisés... C'est très gentil de ta part, et bravo pour avoir repéré les pages manquantes, je récupérerai le texte grâce à ton lien. Merci merci merci !!!
Bonjour @Cunegonde1 ! Chose promise, chose due, voici une liste de quelques volumes dont le téléversement pourrait grandement aider mon travail sur WS dans les semaines et les mois qui viennent :
Pour Péguy, je pense notamment aux textes rassemblés après sa mort sous le titre de Situations. Pas de f-s de ce volume trouvable, ni du tome III des Œuvres complètes à partir desquelles je travaille pour la plupart du reste, donc il faut passer par la publication originale dans les Cahiers de la Quinzaine. D'autres cahiers ont déjà été numérisées, on peut donc reprendre les conventions utilisées pour les nommer. Tous ceux que je voudrais sont sur IA sauf un, où il faudra avoir recours à la version Gallica qui a l'air moins bien. Voici donc les liens :
J'ajouterais à ces cahiers un dernier contenant une biographie de Dostoïevski par André Suarès, que j'aimerais bien transcrire aussi :
Et enfin dans un autre genre trois volumes manquants dans la série des Œuvres complètes de Stendhal éditées par H. Martineau, disponibles seulement sur Gallica me semble-t-il. Vu leurs dates de publication (entre 1929 et 1931), j'imagine qu'il faudrait les verser sur WS et non sur Commons.
Il y a encore deux volumes de la Correspondance de Stendhal manquants sur WS et disponibles sur IA, mais je sais que je n'y toucherais pas avant très longtemps, donc ce serait malséant de t'embêter déjà avec... C'est donc tout et c'est déjà beaucoup, rien de pressé, j'ai bien conscience de beaucoup demander, et n'hésite pas à me dire en retour comment je pourrais t'aider, par exemple si tu as des textes que tu voudrais voir valider, ce serait un plaisir !
Bonjour Susuman77 : Pour l'import des cahiers de la quinzaine, je me trouve confronté à des problèmes liés aux droits d'auteur. En effet comme tu l'as peut-être vu au cours de l'été, certains contributeurs sont très vigilants sur cette question et demandent la suppression des ouvrages non conformes aux règles légales en la matière (on ne peut importer une revue qu'à condition que tous les auteurs soient dans le domaine public). S'agissant des cahiers de la quinzaine, on peut contourner facilement le problème puisque, sauf erreur de ma part, chaque cahier est autonome. Ci-dessous un récapitulatif des auteurs de chaque regroupement de cahiers :
Il faudrait donc que pour les cahiers non importables en entier, tu m'indiques précisément les parties qui t’intéressent pour que je les découpe en fonction et les importe cahier par cahier. Bonne soirée.
Bonjour @Cunegonde1 et merci beaucoup de t'être penché sur la question ! Pour répondre globalement, c'est avant tout Péguy qui m'intéresse (et Suarès dans le dernier). Pour le Série 8, cahier 11, c'est la (grosse) postface de Péguy que je souhaiterais transcrire, mais autant attendre le 1er janvier pour tout importer d'un coup et transcrire alors la nouvelle des frères Tharaud avec. Pas la peine d'importer les textes de Romain Rolland, je crois qu'ils sont déjà transcrits à partir d'autres éditions de toute façon. Pour les autres, est-il possible de "caviarder", de laisser des pages blanches que l'on pourrait ajouter par la suite là où les auteurs ne sont pas encore dans le DP français ?
Concernant le problème légal plus large, j'avais cru comprendre que la présence du fichier sur Commons (où le droit américain des 95 ans après publication s'applique) n'était pas ce qui posait problème, mais plutôt sa transcription et surtout sa transclusion dans l'espace principal. Mais peut-être cela ne vaut que pour les ouvrages déjà importés depuis longtemps et qu'il vaut mieux être prudent pour les nouvelles importations... Quoi qu'il en soit, restreindre l'importation aux textes DP des Cahiers de la Quinzaine ne me dérange nullement. Merci encore, et bonne soirée à toi aussi !
Ah et j'ai retrouvé le bon Edmond Bernus : d'après il est mort en 1954 donc pas DP avant 2025...
Pour Commons il y a cumul des règles le fichier doit être DP aux USA (publié il y a plus de 95 ans) et DP dans le pays d'utilisation du fichier (pour nous 70 ans après l'année de la mort de l'auteur sauf exceptions des morts pour la France pour lesquels il y a des prorogations de droits).
Pour les imports, je vais faire comme tu le proposes, sauf pour le caviardage (c'est trop de travail sur des centaines de pages) et dans la mesure ou les cahiers sont autonomes c'est plus simple découper ceux qui nous intéressent.
Parfait, et oui, je comprends bien pour le caviardage, d'autant que l'organisation des cahiers le rend superflu, il suffit de réserver les "mauvais" numéros pour dans quelques années... Merci beaucoup encore et bon dimanche !
Bonsoir, Susuman77 : j'ai terminé le téléversement des fichiers des cahiers de la quinzaine (j'en ai caviardé deux) :
Je me rends compte que je n'ai pas été très cohérent pour le nommage, mais pour les djvu sur Commons, ce n'est pas si important. Sur WS je te laisse faire à ta manière. Ces fichiers m'ont donné un peu de fil à retordre : les OCR d’Internet archive étaient en mode ligne et tous les mots étaient collés les uns aux autres, j'ai été contraint de refaire la moitié qui étaient déjà téléversés. Ensuite j'ai refait l'OCR avant le téléversement.
Le fichier de la BNF était en très mauvais état (photos floues) on ne peut pas faire grand chose, j'ai fait au mieux.
Bonsoir et un immense merci pour ce travail que j'imagine vraiment énorme, j'espère que ça ne t'a pas été trop pénible, et je m'efforcerai de faire en sorte qu'il n'ait pas été fait pour rien, en en tirant de beaux textes bien corrigés ! Et pour l'OCR je comprends que ça varie beaucoup en fonction de la source et de la qualité du scan, je suis en tout cas très impressionné par la qualité de celui que tu as pu obtenir pour le tome 13 que tu m'as fait l'autre jour, il n'y a vraiment presque aucune scanille ! Merci encore mille fois, et bonne soirée !
Pour les scanilles, c'était normal, je l'avais pré-corrigé (on peut faire cela avec Finereader ou en éditant le fichier xml du djvu), puis en le corrigeant avec des regex de détection des principales scanilles et en réinjectant le fichier xml corrigé dans le fichier djvu. Mais je ne fais pas ça pour les revues, c'est trop chronophage.
Bonsoir Susuman77 : J'ai commencé à préparer les Stendhal, qui sont en cours pré-corrections. Cependant je viens de me rendre compte que l'éditeur scientifique Henri Martineau est mort en 1958. La préface et les notes de l'éditeur ne devraient pas être transcrites avant 2029. J'espère que je ne vais pas me faire supprimer les imports prévus. Si c'était le cas, je les réimporterai avec la préface et les notes blanchies.
Bonsoir ! Oui, pour les volumes que j'ai déjà corrigés, j'ai toujours bien fait attention à laisser les préfaces pour plus tard, avec une note dans la pagelist. Il a même fallu en cacher quelques-unes déjà publiées dans des temps moins regardants, je crois qu'une ou deux avaient été supprimées (ou juste proposées à la suppression et retirées du sommaire de l’œuvre). En tout cas personne n'a jamais cherché noise aux nombreux scans de la série déjà présents sur Commons ou WS français, donc à ta place je ne m'en ferais pas trop, en croisant les doigts...
Bonsoir Susuman77 : J’ai terminé le téléversement des 3 volumes de Stendhal, les fac-similés sont rognés des marges excessives, et la couche texte est pré-corrigée des principales scanilles. Les fac-similés étant assez mauvais à la base, il ne faut pourtant pas s'attendre à des miracles. J'ai mis un avertissement relatif à la préface non-dp du voyage dans le midi de la france :
Bonne correction.
Merci , merci infiniment, oui, j'ai déjà eu maille à partir avec les scans gallica de cette série, ce n'est jamais très bon, mais ça ne peut être que mieux avec ton ocr et j'essaierai d'en tirer quelque chose de bien corrigé ! Bonne semaine !
Bonjour Cunégonde, j'ai déjà par le passé eu recours à tes talents de téléversage et modification de pdf lorsque tu m'avais apporté un énorme coup de main avec les livres de La Décadence latine. J'ai aujourd'hui besoin de nouveau de ton aide, si tu le veux bien...
Je cherchais un fac-similé pour le roman L'Amour en visites d'Alfred Jarry. J'avais beau erré longtemps sur Gallica, je ne trouvais rien, jusqu'à ce que je tombe sur une page qui m'indiquait que ce texte, qui avait un temps possédé un fac-similé, avait été retiré de la vue pour la raison suivante : "défectueux". J'ai alors cherché ailleurs sur IA, Hathi Trust, Google Books un fac-similé, en vain. Ce n'est que hier que je suis tombé sur le site de la Société des Amis d'Alfred Jarry (SAAJ) où est proposé au public une série de numérisations des ouvrages de l'auteur, parmi lesquelles se trouvaient mon Graal !!
Toutefois, en ouvrant le document pdf, j'ai été surpris de voir que le pdf était en mode paysage, affichant deux pages côte-à-côte, et non une par une comme sur Gallica. De plus, la numérisation mériterait un léger rognage sur les bords, à mon avis. Je voulais savoir si tu serais d'accord de l'adapter à la mise en page des autres djvu de WS et de le téléverser pour moi. Merci d'avance.
Le lien vers le pdf : ici (je peux confirmer que c'est l'édition originale, et donc DP). Tu peux t'occuper de simplement téléverser le fichier sur Commons et je me chargerai de remplir les informations concernant l'ouvrage sur Commons et WS, si ça t'arrange.
@Rafavannay Bravo pour ta trouvaille. Je vais m'occuper de ce livre, d'ici la fin de la semaine (ma file est assez remplie). Bonne soirée.
Merci beaucoup @Cunegonde1, de toute façon, ça peut attendre, je ne suis pas pressé, il me faut déjà finir la retranscription d'un autre livre avant donc pas besoin de le mettre haut dans ta file Bonne soirée à toi aussi !
Rafavannay : Le Livre:Jarry - L’Amour en visites, 1898.djvu est prêt à la correction. Bonne soirée.
Bonjour Cunegonde, ce livre contient des texte en plusieurs langues Correspondance de Guillaume le Taciturne, prince d'Orange, publiée pour la ... - Willem I (prins van Oranje) - Google Boeken
Il me faut seulement les pages nr (livre) 297-300 , je peux faire cela moi-même. Mais si le livre te semble intéressant pour wikisource France, pourras-tu le préparer en entier, en djvu et télecharger?
Bonjour @Havang(nl). Effectivement cela a l'air intéressant, cependant je ne pourrais le préparer avant la fin de la semaine (je n'ai pas mes outils ni de connexion correcte pour faire l'upload. Si tu ne le vois pas dimanche prochain, c'est que j'aurais oublié : peux-tu me pinguer pour me le rappeler. Bonne soirée.
Bonjour Havang(nl) : C'est fait, j'ai importé le livre sur Commons : c:File:Correspondance de Guillaume le Taciturne, prince d’Orange, 1857.djvu et avec un lien vers WS:NL, mais je ne sais pas créer le livre. Tu peux récupérer les infos utiles (page list) sur Livre:Correspondance de Guillaume le Taciturne, prince d’Orange, 1857.djvu. Cette fois, je n'ai pas oublié de vérifier et sauf erreur de pagination il est complet (je ne vérifie pas page à page, mais avec un calcul sur la première et la dernière page (si page-djvu-11=1, num-page(n) doit être égal à page-djvu-10) jusqu'à la fin du livre. Bonne soirée.
Bonjour Cunegonde1 , le Livre:Soury - Le système nerveux central, 1899.djvu est malheureusement incomplet. Seules les 754 pages du volume 1 ont été importées en djvu. Il reste donc à importer les pages 755 à 1865 du volume 2 (y compris l'index alphabétique paginé des auteurs cités dans le texte) pour compléter cette belle édition électronique de ce monument de l'histoire des neurosciences. J'ai déjà créé les entrées des 12 premiers chapitres du volume 2 dans la TdM. Si tu pouvais donc t'attaquer à la deuxième manche de la paire avec tes outils magiques (j'ai mis le lien sur l'adresse du vol. 2 dans IA). NB : je suggère de supprimer les pages blanches de la fin du premier volume en passent directement de la page 754 à la page 755. Merci de ton aide : Archie
Bonjour @Archibald Tuttle. Je pourrai m'occuper de cela à partir de la fin de semaine.
Bonjour Archibald Tuttle : c'est Fait
, j'ai mis les pages du tome 2 dans la continuité sans rupture. Les pages 1238-1239 étaient manquantes, je les ai remplacées par celles de la même édition chez google(US). Pour voir la différence, il faut purger le livre (onglet en haut à droite) ou inscrire
?action=purge
, à la fin de l'url.
Bonjour Cunegonde1 J'aurais encore besoin de toi pour réparer une bêtise que j'ai faite en important un article de L. Daudet sur Jules Soury (rappel : l'auteur du volumineux traité que tu as déjà pris le temps de convertir en djvu la semaine dernière). La bonne nouvelle c'est que je suis maintenant capable de convertir les pdf en djvu. Malheureusement, je n'arrive pas à obtenir un livre paginé, probablement parceque j'ai mal nommé les cinq fichiers djvu. Seul le premier (titre) figure pour l'instant dans la pagination Page:Daudet - Le drame de Jules Soury, paru dans L'Action française, 02-02-1939-1.djvu/1, Il s'agirait donc de faire apparître dans la pagination les quatre pages suivantes (Page:Daudet - Le drame de Jules Soury, paru dans L'Action française, 02-02-1939-2.djvu, Page:Daudet - Le drame de Jules Soury, paru dans L'Action française, 02-02-1939-3.djvu, Page:Daudet - Le drame de Jules Soury, paru dans L'Action française, 02-02-1939-4.djvu et Page:Daudet - Le drame de Jules Soury, paru dans L'Action française, 02-02-1939-5.djvu). Existe-t-il un outil pour faire ça rapidement et automatiquement ? Merci de ton aide, amicalement : Archibald Tuttle (d) 8 septembre 2023 à 09:19 (UTC)
Bonjour @Archibald Tuttle le principe pour les journaux est de présenter soit la première page en entier sans forcément d'OCR, soit l'ours en haut de la première page, et ensuite l'article voulu en pages découpées en adaptant suivant le nombre et la taille des colonnes. Ensuite, il faut regrouper le tout dans un seul fichier djvu. On peut facilement regrouper les pages en un seul djvu avec DjVuToy (disponible ici), (onglet édition). Etant absent pour une bonne dizaine de jours, et ne disposant pas de mes outils, je ne peux pas t'aider davantage pour l'instant. Si ça peut attendre et que tu n'y arrives pas, je le ferai à mon retour. Bonne soirée.
Cunegonde1 : : Pas la peine : grâce à ton lien permettant de fusionner les pages djvu, j'ai réussi à me débrouiller tout seul. Pour la suite, j'ai procédé par imitation. Merci de ton aide et bonne continuation : Archibald Tuttle (d) 12 septembre 2023 à 11:59 (UTC)
PS : peut-être encore un peu de nettoyage de mes dégâts si tu as les outils pour le faire : supprimer les djvu de pages séparées devenus inutiles.
Bonjour @Archibald Tuttle. La suppression de pages doit être demandée sur la page Wikisource:Pages à supprimer. Seuls les administrateurs ont les droits pour supprimer les pages et je ne suis pas administrateur. Bonne soirée et bravo pour t'être débrouillé pour regrouper les pages.