À propos de ce flux de discussion

La discussion précédente a été archivée dans Discussion utilisateur:ElioPrrl/Archive 1 le 2020-01-16.

Acélan (discussioncontributions)

Bonjour,

J'ai vu tes ajouts récents et bienvenus sur la page d'aide en matière de typographie. Concernant le modèle lié, il est cependant plus économique et plus lisible d'écrire, par exemple, {{lié|17 h 17}} plutôt que 17{{lié}}h{{lié}}17 - et cela revient exactement au même.

ElioPrrl (discussioncontributions)

Oui, cela est égal c’est juste une question d’habitude de ma part.

P.S. : et tant que j’y suis, merci aussi pour toutes les corrections de scanilles avec AWB ! Je vois à quel point j’en ai laissé passer à mes débuts, c’est un peu humiliant

Répondre à « Modèle {{m|lié}} »
F0x1 (discussioncontributions)

Bonjour, je viens de terminer la relecture de l'ouvrage sur l'intégration de Lebesque et j'aimerais te soumettre les questions et problèmes qui me sont venus au cours de cette relecture:

  1. le fait de « sortir » les ponctuations des formules génère pas mal de problèmes dans les tranclusions (lignes qui commencent par une ponctuation, ou encore dans les formules centrées le point-virgule qui se met sur sur ligne à part) ; j'ai essayé de résoudre les problèmes à l'aide du modèle {{nobr}}, pour les éditions de la version en ligne et en PDF-A5, mais bien sûr ça peut ne pas fonctionner pour d'autres translusions…
  2. le fait de séparer plusieurs équations sur la même ligne en écrivant {{c|<math> [équation 1] </math> {{em|2}} <math> [équation 2] </math>}} peut sembler une bonne idée, mais malheureusement lorsque les équations sd mettent sur 2 lignes, elles ne sont plus correctement centrées, car la première ligne contient l'équation 1 ET l'intervalle, la deuxième ligne ne contient que l'équation 2 (et celle-ci est donc bien centrée, tandis que la première est décalée vers la gauche à cause de l'intervalle à droite). N'y aurait-il pas une autre possibilité pour que les 2 équations restent sur la même ligne, ou sinon que l'intervalle soit ignoré ?
  3. Enfin un problème général de lien qui ne fonctionne pas lorsqu'on fait référence à une note avec la balise un #cite_note-xx) : ce type de lien fonctionne sur la version en ligne, mais jamais dans les versions transcluses (pdf ou html). Un bug ? Par exemple à la fin du Chapitre II. Un bug ?

Bonne continuation Sourire

ElioPrrl (discussioncontributions)

Merci pour cette validation ! et en particulier pour votre effort à conserver l’intégrité sémantique des formules mathématiques : le {{nobr}} fonctionnera pour tous les formats. Nos vœux pour l’amélioration de l’extension Math n’ont pas reçu assez de voix cette année, mais en les réunissant l’année prochaine, nous aurons peut-être une carte à jouer Sourire

Pour l’intervalle entre les équations centrées, le modèle MathForm que je développe depuis quelques mois devraient y répondre. Malheureusement, je suis très pris en ce moment, et mes connaissances en Lua étant très rudimentaires, tout cela met beaucoup plus de temps que prévu. Enfin, le problème de lien est effectivement un bug ; d’ailleurs, si j’exporte le chapitre II seul, le lien que vous pointez fonctionne normalement.

Enfin, comme vous avez validé l’ouvrage, vous pouvez faire passer le Livre: à l’état validé, et chacune des pages de transclusion à l’état validé (avec la petite étoile). Je vous le laisse faire, parce que ce n’est que justice que ce soit votre nom qui apparaisse dans l’historique

F0x1 (discussioncontributions)

Merci pour les réponses ! J'ai donc mis le livre en mode « Validé », je ne sais pas s'il y a autre chose à faire pour la finalisation… Mais j'en ai quand même fait bien moins que vous − une relecture prend beaucoup moins de temps que la première correction… Et pour les nouveautés de {{MathForm1}} je me sens impatient de connaître les évolutions Sourire — je n'ai jamais encore pratiqué Lua mais je serais curieux de connaître un peu… Bonne continuation et merci pour les échanges toujours intéressants !

ElioPrrl (discussioncontributions)

Pardon, je ne suis pas assez clair dans mon message précédent Vous pouvez encore marquer les pages de transclusion (la « page de garde » et toutes ses sous-pages, correspondant à chaque chapitre) comme validées : en faisant « Modifier », sous la description de la modification, il y a cinq pastilles ; en cochant la dernière (la petite étoile), la description devient /* Validé */ et le modèle {{TextQuality}} en haut de page passe à « Textes validés ».

F0x1 (discussioncontributions)

Merci pour les explications — mais j’ai mis un bon moment avant de comprendre pourquoi je ne trouvais pas les cinq pastilles de modification sur les pages de modification : il faut que cette option soit activée dans la pages les Préférences (sous-page « Gadgets », item « Ajoute des boutons permettant de modifier l’indicateur de qualité d’un texte »), ce que je n'avais pas encore fait… Je vais donc faire les modifications des différents chapitres ! À bientôt j'espère, peut-être pour des nouvelles concernant MathForm ?

ElioPrrl (discussioncontributions)

Ah je ne savais pas pour le gadget ! il est bien pratique pourtant, je ne sais pourquoi il ne fait pas partie des options par défaut. Merci

Répondre à « À propos de Lebesgue »
Acélan (discussioncontributions)

Bonjour,

C'est la première fois que je remarque cela, mais il n'est pas rarissime de trouver des caractères cyrilliques parasites au milieu de caractères latins ; cela peut peut-être valoir le coup d'intégrer cela à la détection des scanilles. Comme les citations du russe sont très rares, le traitement peut sans doute être assez massif.

La liste des caractères :

[аАбБвВгГдДеЕёЁжЖзЗиИйЙкКлЛмМнНоОпПрРсСтТуУфФхХцЦчЧшШщЩъЪыЫьЬэЭюЮяЯ]

(je n'ai pas trouvé d'expression simplifiée du type [A-Z])

ElioPrrl (discussioncontributions)

Je viens de rajouter la règle à ma liste Sourire

Acélan (discussioncontributions)

Merci, mais ça n'a pas l'air de trop marcher ; peut-être parce qu'il s'agit souvent de lettres isolées (с'est, il у a) ? ou pour une autre raison qui m'échappe ? sur cette page, par exemple, Таché devrait être surligné.

Par ailleurs, il y a un nombre non négligeable d'occurrences de caractères cyrilliques mélangés à des caractères grecs.

Ne serait-il pas plus simple de surligner tous les caractères cyrilliques ?

ElioPrrl (discussioncontributions)

Chez moi, Taché est surligné ; la règle est ajoutée à ma page personnelle, avez-vous pensé à la répercuter sur la vôtre ?

Effectivement, je ne cherche pas les lettres isolées, pas plus que je ne le faisais pour le grec, mais les successions lettre latine puis lettre cyrillique, ou inversement.

Je vais rajouter une règle pour le mélange grec-cyrillique.

EDIT : par contre, je viens de me rendre compte que le gadget ignore (ligne 273 du code) tout ce qui se trouve dans un modèle {{lang}}, donc que par exemple les successions grec-cyrillique, qui se trouvent souvent dans {{lang|grc}} ou {{lang|ru}}, ne sont pas surlignées. Si on voit le bon côté de la chose, peut-être, en effet, peut-on alors surligner tous les caractères cyrilliques, sans que cela fasse trop de faux positifs.

Répondre à « Scanilles »
Cunegonde1 (discussioncontributions)

Bonjour, j'ai voulu faire un test de réalisation d'un fichier au format djvu du tome I entier de Buffon - Œuvres complètes, éd. Lanessan que tu as mis en ligne au format pdf. Pour le moment c'est un test, mais plutôt encourageant car c'est une version en noir et blanc de bonne qualité (j'ai réalisé les images .tiff avec scantailor, puis ocrisé avec abbyy et converti le pdf final en djvu avec pdf2djvu). J'ai conservé la page de titre et les superbes planches couleurs. Le tout pèse 25,6 Mo seulement pour les 928 pages en 400 dpi.

Si tu es intéressé (aucune obligation), je peux finaliser le test et le mettre en ligne ce qui serait plus simple que de séparer les volumes en deux parties comme tu as été obligé de faire.

En tout cas c'est un sacré défi que la transcription de ce monument du XVIIIe siècle.

ElioPrrl (discussioncontributions)

Merci beaucoup ! J'y connais absolument rien en conversion, et j'avais essayé naïvement de convertir le fichier pdf en djvu avec résolution 600dpi, et déjà que la résolution du PDF était pas extraordinaire, j'avais obtenu quelque chose de beaucoup moins lisible, pour un poids à peu près équivalent, d'où ma décision. Je veux bien voir le fichier ! Je vérifierai que la couche texte de Gallica, très satisfaisante, a été préservée ; je ne pense pas retéléverser les tomes I et II, que j'ai divisés et dont j'ai mis en partie les index en conformité avec les originaux, mais si c'est concluant, pourrais-je te solliciter pour la conversion des autres volumes de la série ?

Je ne sais pas si j'irai au bout (je mène trop de projets de front...), mais au moins mettre les choses sur des rails en corrigeant quelques volumes, pour voir les problèmes, édicter des règles générales et permettre ainsi une correction unifiée avec les autres contributeurs, cela serait déjà super.

Encore merci ;)

Cunegonde1 (discussioncontributions)

J'ai mis en ligne cette version de test non finalisée : Fichier:Buffon - Œuvres complètes, éd. Lanessan, 1884, tome I-test.djvu. S'agissant de l'ocr, dans une version finalisée, l'ocr que je réalise est en général meilleur que celui de la BNF car je sélectionne les zones de reconnaissance "à la main" et j'utilise le même logiciel de reconnaissance. J'ai oublié d'indiquer que je récupère les livres sur la BNF avec Gallica.ml qui permet de télécharger les images (une par une) de façon automatisée avec un script dans la meilleure résolution possible.

ElioPrrl (discussioncontributions)

Ça m'a l'air vraiment bien ! Il n'y a plus toutes ces marges qui dévorent la page, et le texte est très lisible comme ça (bon, j'avoue aimer la couleur originale des pages, mais c'est tout à fait anecdotique ^^) ; quand aux quelques pages dont j'ai consulté la couche texte, c'est impeccable.

Ça doit prendre un temps fou de tout "corriger" à la main ainsi ! C'est vraiment sympa de porter de l'intérêt à ce projet, en tout cas. Je comprends très bien que tu as toi-même d'autres projets, donc ne t'inquiète pas, le temps que je corrige rien que le premier tome, tu as de la marge. Ne te sens donc pas obligée ; quand je voudrai importer un nouveau tome (pas forcément dans l'ordre d'ailleurs), je te le signalerai, et tu auras toute permission de m'envoyer bouler x)

Cunegonde1 (discussioncontributions)

Ok, pas de problème fait moi signe ça me fait plaisir de contribuer à cet ouvrage. PS : c'est le passage en noir et blanc qui allège de façon drastique le poids de fichiers.

ElioPrrl (discussioncontributions)

Ayant terminé les deux premiers tomes des Œuvres complètes de Buffon, je reviens vers vous/toi (? je ne sais jamais qui vouvoyer et tutoyer ici ), @Cunegonde1, pour savoir si ce serait possible de convertir en djvu le tome III (les liens pour consulter tous les tomes sont disponibles sur Gallica), comme proposé dans les précédents messages ? Le temps ne presse pas, loin de là : je compte faire une pause sur ce projet, et corriger des textes mathématiques pour changer ; ne te sens donc pas obligée de faire ça tout de suite ^^ Bon courage pour ce travail que je peux imaginer assez rébarbatif, et surtout grand merci !

Cunegonde1 (discussioncontributions)

Bonjour ElioPrrl, pour le (vouv/tut)oiement, je crois que c'est une question de génération, pour ma part, je fait partie de celle qui a commencé à utiliser Internet à son début ; à l'époque, l'usage était que tout le monde se tutoyait sur Internet. Il est vrai que j'ai repéré depuis quelques temps l'apparition du vouvoiement sur wikisource, ce qui est amusant. Bref, ok pour le Buffon, je regarde quelle est la meilleure solution technique et je te tiens au courant.

Pour les planches, souhaites-tu que je les traite également pour les téléverser en plus du djvu, séparément sur Common ? ce qui permet de les intégrer facilement ensuite, mais prends également du temps, mais si tu n'es pas pressé...

ElioPrrl (discussioncontributions)

Pour les planches, tu peux les traiter comme le reste du texte, pas de traitement de faveur . Je les transclurai de toute façon tout à la fin, en les téléchargeant directement de Gallica en HD puis en leur donnant probablement un petit coup de Photoshop. Les planches sont distribuées assez aléatoirement entre les volumes, et je les inclurai à des endroits plus logiques. Et comme je le disais, tu as tout ton temps, je suis en période de partiels donc je ne toucherai pas beaucoup à Wikisource pendant deux semaines. Merci beaucoup !!!

Cunegonde1 (discussioncontributions)

Ok.

ElioPrrl (discussioncontributions)

Encore Merci !

Cunegonde1 (discussioncontributions)

Bonjour ElioPrrl, j’ai terminé la préparation et le téléversement du tome III de Buffon : Livre:Buffon - Œuvres complètes, éd. Lanessan, 1884, tome III.djvu, le djvu ne pèse qu’environ 40 Mo. Le traitement est le suivant :

  • Mise en noir et blanc à l'exception des pages de titre et illustration,
  • gommage des pétouilles les plus visibles,
  • Passage à l'Ocr sur Abby finereader 15 :
    • Vérification et correction des zones de reconnaissance,
    • Ocr de bonne qualité en français et latin, plus mitigé pour les quelques passages en grec ; pour les tableaux, pages 510 à 523, pas de miracle, la reconnaissance est bonne mais tout le boulot reste à faire.
    • Pré-correction du texte sur Abby.
  • Passage d'une expression régulière reconnaissant les principales scanilles et correction avant création du djvu.
  • J’ai laissé les coquilles pas trop nombreuses mais surtout des a/à.

Je suis disponible pour le prochain volume, prévoir 15 jours à l'avance. Bon courage pour la suite.

PS : Il faut retirer l'avertissement qui apparaît au dessus du pagelist.

ElioPrrl (discussioncontributions)

Un immense merci Cunégonde ! Vous avez même créé la page Livre:, merveilleux ! Le temps déjà que je finisse celui-là, il y a le temps de voir venir le suivant... Un an pour les deux premiers (bon, ils étaient particulièrement pénible car contenaient beaucoup de mathématiques), alors il ne faut pas attendre de nouvelle demande avant six mois . Merci infiniment !

Cunegonde1 (discussioncontributions)

Bonjour @ElioPrrl, j'ai vu ce jour sur le scriptorium que le tome 3 de Buffon avance sérieusement. Souhaites-tu continuer ce projet ? Dois-je commencer à préparer le tome 4 ?

ElioPrrl (discussioncontributions)

Sérieusement, sérieusement... c’est vite dit, je suis bien loin de la fin ! Si tu as du temps, pourquoi pas, mais fais passer tes projets avant. Seulement, pour ce tome, pourrais-tu faire comme j’avais fait au début, diviser ce tome en deux parties (entre le Traité de l’aimant, qui appartient encore à l’Histoire des minéraux, et le début de l’Histoire des animaux) ; pas tant pour des questions de poids, mais cela me facilitera la tâche lors de la transclusion, pour remplir les boîtes de titre. Merci de proposer en tout cas

Cunegonde1 (discussioncontributions)

Ok, pour la division en deux parties ça ne pose pas de problème, sinon, le scan de gallica est un peu problématique (Livre mal ouvert => lignes courbées) normalement je peux le rectifier, mais ce ne sera sans doute pas parfait. Si j'ai un doute sur l'endroit précis de la césure, je te demanderai au moment de fabriquer le djvu (c'est à dire à la fin) du processus.

ElioPrrl (discussioncontributions)

Merci beaucoup ! J’espère que ça ne te donneras pas trop de fil à retordre

Cunegonde1 (discussioncontributions)

Bonjour ElioPrrl, j'ai fini le tome 4 de Buffon j'ai fait 3 fichiers : 1o le volume complet, 2o le volume séparé en deux parties 1/ les minéraux, 2/ les animaux.

ElioPrrl (discussioncontributions)

Super merci beaucoup ! Je m'occupe de la création des index sur Wikisource cette fois-ci Tu me rends vraiment service, parce que les couches texte sont de la meilleure qualité !

Cunegonde1 (discussioncontributions)

En fait je fais une pré-correction avec finereader, puis je corrige les principales scanilles mais je laisse les coquilles.

ElioPrrl (discussioncontributions)

Mais comment fais-tu pour modifier la couche texte du fichier, une fois qu'il a été océrisé ? Parce que j'ai bien une liste de corrections et de commandes pour insérer automatiquement certains modèles, que j'applique avec le bouton T, mais je ne sais pas comment faire pour l'appliquer au fichier, avant le mode page...

Cunegonde1 (discussioncontributions)

L'OCR Finereader (version windows et non mac) permet d'éditer et de modifier la couche texte. Pour les OCR en français ancien, je préfère utiliser Tesseract avec la langue Fraktur je fais l'OCR puis j'édite la couche texte sous forme d'un fichier xml, je le modifie, puis le réinjecte dans le djvu.

ElioPrrl (discussioncontributions)

Merci, il me faudra me pencher un peu plus là-dessus, parce que quand je m'occupe moi-même de la reconnaissance de caractères (avec Tesseract sur Python), les fichiers sont bien moins bons que les tiens Alors si je peux copier sur toi !... Encore Merci  !

Cunegonde1 (discussioncontributions)

sous linux :

  • extraire la couche texte : djvutoxml monfichier.djvu monfichier.xml
  • réinjecter la couche texte : djvuxmlparser -o monfichier.djvu monfichier.xml
ElioPrrl (discussioncontributions)

Bonjour @Cunegonde1 ! Je reviens poursuivre la discussion là où elle était restée, parce que je veux essayer de mieux faire quand je convertis des fac-similés en DjVu. Grâce au tutoriel de @SyB~Anicium (un immense Merci à lui ! et il ne doit pas se priver pour apporter ses lumières ici ), je dispose de TIFF bien traités, que je peux fusionner en un DjVu de 33Mo (pour 270 pages, comment fais-tu pour obtenir des fichiers à peine plus lourds mais trois fois plus longs  ?).

Seulement, je ne sais pas comment ajouter un OCR à ces images sans produire un PDF (avec pytesseract sur Python) comme fichier intermédiaire ; ne peut-on pas océriser directement les TIFF ou le DjVu, quitte à obtenir un fichier XML à réinjecter dans le DjVu ? Le problème : je crois que Tesseract ne peut pas donner en sortie des fichiers XML (PDF, hOCR, mais pas XML). Comme tu disais que tu utilisais Tesseract pour les textes anciens, je me disais que tu savais peut-être comment faire cela…

Cunegonde1 (discussioncontributions)

Bonjour Elioprrl, j'utilise ce script de Kipmaster qui crée une couche texte sur un djvu, il est basé sur tesseract et tu peux choisir la langue. Pour le français avec s longs, j'utilise la langue "fraktur" qui est la moins mauvaise. puis j'édite le texte en xml et utilise des regex pour éliminer les erreurs les plus courantes : aufli au lieu de auſſi, etc. Pour le rapport poids qualité avec pdf2djvu, c'est assez délicat, il faut jouer avec les paramètres couleur ou noir et blanc, et résolution.

Mais depuis l'automne dernier, je me suis offert abbyy finereader 15 (199 €), qui est un excellent couteau suisse de création et d'édition de pdf, c'est avec lui que j'obtiens des rapports qualité/poids du fichier satisfaisants car on peut paramétrer de nombreuses options lors de la création des fichiers. Il permet également dans sa version windows (et pas mac) d'éditer et de corriger directement le texte de l'ocr avant de créer le fichier final avec de nombreux formats d'export dont bien sûr le djvu. Je sais que certains contributeurs (mais je ne me souviens plus qui) ont demandé et obtenu des micro-crédits pour le financer. Les défauts que j'ai repérés sur finereader après 8 mois de pratique : confusions fréquentes entre sauts de ligne et sauts de paragraphe dans les poèmes ; reconnaissance des zones d'entête de page assez médiocre. Pas de possibilité d'utiliser des regex pour corriger l'OCR ; galère pour apprendre à faire un OCR des textes avec S longs (le dictionnaire ancien français ne convient pas), mais avec de la patience, on y arrive. Et surtout, je n'ai pas trouvé de communauté en francophone pouvant apporter de l'aide sur ce logiciel.

ElioPrrl (discussioncontributions)

Merci beaucoup ! Je vois que ce programme décompose le DjVu en images TIFF avant de les océriser, et comme je dispose déjà de ces fichiers, je vais essayer de modifier ce script pour éviter de refaire le travail déjà fait. Merci !

Cunegonde1 (discussioncontributions)

Si tu arrives à réaliser cette modification, cela m’intéresse, car quelque soit le cas de figure, je pars également toujours de fichiers tiff créés en phase préparatoire avec scantailor.

ElioPrrl (discussioncontributions)

Cunegonde1 : Je viens de réécrire le script que tu indiquais en Python (je ne sais pas coder en perl, malheureusement, et je supporte les lignes de commande à dose homéopathique ). Il a été appliqué à ce ce livre via Spyder sur Windows. Cela me donne un résultat dont je ne suis pas mécontent, même sans post-traitement de la couche texte.

Je ne suis pas un as du codage, et je voulais que le script puisse être utilisé sans avoir à changer de répertoire, donc le script est un peu pénible à manipuler (il faut entrer les emplacements complets des fichiers directement dans le script, et peut-être que sur un autre OS il faudra changer des guillemets doubles en simples, ou des slashs en anti-slashs), mais moi-même je crains de ne pas faire beaucoup mieux.

Cunegonde1 (discussioncontributions)

Le résultat est plutôt bon, bien qu'il soit un peu lourd pour un noir et blanc. L'ocr est bon, y compris pour les équations simples . Je testerai ton script demain sur linux et mac pour voir si j'y arrive avec les noms de dossiers. En fait il suffit de créer un dossier spécifique pour l'utilisation de ce script. C'est ce que j'ai fait pour des scripts perl appliquant 400 regex en cascade de nettoyage des principales scanilles spécifiques aux textes avec S longs. Pour le poids des fichiers, avec pdf2djvu pour le mercure de france, beaucoup de pages j'ai mis < pdf2djvu -d 300 --monochrome -o Mercure1914-07-1.djvu Mercure1914-07-1.pdf > j'arrive à ~20Mio pour 300 pages.

[Edit] je viens de relire ta page et quelque chose m'échappe. Ton prérequis était de partir d'images tiff pour créer un djvu et faire un ocr. Or 1/ tu crée ton djvu avec DjvuToy puis 2/ tu applique ton script au fichier djvu. Quelle est la valeur ajoutée par rapport à la simple utilisation du script ocr-pl ? qui ajoute une couche texte à un fichier djvu existant ?

ElioPrrl (discussioncontributions)

Le script Perl part du DjVu, le décompose en TIFF, océrise les TIFF et inscrit cet OCR dans le DjVu. Je court-circuite juste la première étape, puisque je dispose déjà des TIFF. (mon prérequis était surtout de ne pas avoir à convertir le DjVu en PDF puis encore en DjVu)

Cunegonde1 (discussioncontributions)

Bonjour ElioPrrl, je vois que tu avances à grands pas sur tome 3 de Buffon. Souhaites-tu continuer sur ce projet, et que je commence à préparer le tome 4 ? Si oui, cela demande pas mal de temps (redressage des pages etc. et vérification de l'OCR), et je préfère le faire tranquillement et avoir une visibilité pour poursuivre mes autres projets en parallèle. Si oui toujours, indiques-moi si tu as des préférences de découpage du volume ou bien s'il faut le laisser tel quel. Bien cordialement.

ElioPrrl (discussioncontributions)

Merci Cunegonde, mais le tome 4 a déjà été préparé... par toi-même ! Je pense finir le III avant de vraiment importer le IV sur Wikisource. Mais merci encore

Cunegonde1 (discussioncontributions)

Bon, je regrette de t'avoir importuné pour rien. Je pense avoir un "petit délai" avant de penser au tome 5 .

ElioPrrl (discussioncontributions)

Oh aucun problème !

ElioPrrl