Sujet sur Discussion utilisateur:SyB~Anicium/Structured Discussions Archive 1

ton tutoriel sur le DjVu et les outils pour Mac

31
Hsarrazin (discussioncontributions)

Salut,

comme indiqué sur le Scriptorium, je travaille en Mac, ce qui me simplifie beaucoup la vie pour certaines choses, et pas du tout pour d'autres ^^

Je n'ose pas modifier directement ton tutoriel, donc je vais te signaler ici les outils Mac que j'utilise pour les tâches correspondantes :

1. Retaille du PDF : l'utilitaire Preview/Aperçu, livré en standard sur tout Mac est parfait, très rapide, et permet même de retailler, sur tout le livre, les marges blanches beaucoup trop larges qu'on a sur de nombreux scans anciens de Gallica (ceux faits à partir des microfilms) - comme celui-ci par exemple.

2. découper un pdf en jpg : j'utilise Any Free PDF to JPG Converter (qui est gratuit). Il y en a bien d'autres.

Mon principal problème, c'est l'outil pour construire un DjVu. Je n'ai pas trouvé de version pour Mac de DjVu Toy - et malheureusement, la page du logiciel est en chinois (enfin, c'est ce qu'il me semble).

(à suivre, j'espère)

SyB~Anicium (discussioncontributions)

Hum... J'ai cherché, cherché... Est-ce que DjvuToy.exe fonctionnerait grâce à un émulateur de Windows sous Mac ?

Je n'ai pas trouvé d'outil Mac pour assembler plusieurs DjVu (sachant que la découpe elle-même pourrait se faire en enregistrant les sections qui posent problème grâce à un lecteur tel que DjView sous Mac). Tiens-moi au courant !

Hsarrazin (discussioncontributions)

oui, la découpe, je sais faire... c'est l'assemblage (ou l'insertion d'une page) pour lequel je ne trouve pas :(

Je vais essayer d'installer un émulateur windows, mais je suis pas trop sûre...

Hsarrazin (discussioncontributions)

Bon à savoir, sur phabricator

, un contributeur mentionne l'usage de djvused pour recaler le texte par rapport aux images sans tout casser...

Je ne me suis pas penchée dessus pour voir comment ça marche, mais ^^

SyB~Anicium (discussioncontributions)

Hé, c'est plutôt intéressant !! Et si j'ai bien compris, si on dispose du logiciel DjVuLibre, c'est déjà inclus (des .exe sont bien planqués dans le répertoire d'installation)... Et compatible Win/Mac/Linux ! Seul bémol, ça reste en ligne de commande, alors ça risque d'en rebuter certains. Dire que les développeurs n'avaient qu'à incruster les boutons nécessaires dans DjView pour le transformer en machine de guerre (...) merci Je testerai ça :)

Hsarrazin (discussioncontributions)

oui, perso, les lignes de commande, je ne sais pas du tout comment ça fonctionne :(

SyB~Anicium (discussioncontributions)

J'ai fait quelques essais hier pour pouvoir utiliser Tesseract (qui ne fonctionne qu'avec des lignes de commande, donc sans interface graphique), et c'est pas super compliqué ; le seul point un peu difficile c'est d'indiquer le bon chemin des fichiers d'entrée et de sortie... Enfin, j'ai fait tout ça pour rien, car Tesseract peut aussi s'utiliser avec une interface graphique (gImageReader) sous Windows, avec la possibilité d'ajouter des fichiers langue encore plus aboutis (latin avec des s longs notamment !).

À ce sujet, je viens de voir que ABBYY Fine Reader est soldé à 99€ pour Mac, et -20% pour Windows. J'ai presque envie d'y aller (ma version livrée avec le scan n'inclut pas le latin pour mon projet Gallia Christiana, mais c'est infiniment plus performant que Tesseract pour repérer les différents cadres d'une image, par exemple pour la presse).

Hsarrazin (discussioncontributions)

oui, je connais Abbyy fine reader qui est excellent... :)

je voulais l'acheter il y a déjà plusieurs années... mais la version pour mac ne permet pas la sortie en DjVu ^^

ça me convaincrait presque (!!!) de changer de système d'ordi...

SyB~Anicium (discussioncontributions)

J'avais trouvé la solution de sortir le résultat en .html, et à l'aide d'une Regex assez simple, on peut incruster des balises de SPLIT à la place des indications de page, pour aller remplacer l'ancienne couche directement dans Wikisource :) Je travaille à améliorer le procédé... Au final on a un DjVu qui n'a pas une bonne couche de texte, mais les pages Wikisource en obtiennent une de meilleure qualité !

SyB~Anicium (discussioncontributions)

Bon, eh bien il n'y a absolument pas photo, FineReader est imbattable pour OCRiser le Gallia Christiana (c'est un projet un peu dingue que j'ai depuis janvier). Jusque-là j'étais parvenu à produire un texte "relativement" correct, à grands renforts de Regex pour replacer les ligatures, supprimer les déchets et rétablir les S longs, mais j'étais bloqué par l'incapacité des logiciels OCR à replacer les paragraphes dans le bon ordre.

Résultat : les deux colonnes se retrouvaient mélangées, avec des lignes se percutant un peu partout (voir ici). Là je crois que je vais arriver à quelque chose, car en effet FineReader est capable de produire du DjVu (tu viens de me l'apprendre !) Il faut juste nettoyer le texte avec des Regex, et j'ai l'impression que le menu Rechercher et Remplacer est très faible...

C'est très injuste que cet export DjVu n'existe pas sous Mac, est-ce qu'en version 14 c'est toujours pareil ?

Hsarrazin (discussioncontributions)

je surveille régulièrement Abbyy, mais malheureusement, toujours pas voir les specs :(

SyB~Anicium (discussioncontributions)

Salut ! Quelques nouvelles de mes expérimentations OCR :)

Voilà la différence entre une première océrisation (gImageReader) de l'an dernier et sa nouvelle version FineReader en suivant une méthode bien précise. Le S long et les ligatures XVIIIe siècle ne sont pas une fatalité ! Mais ça reste... assez lourd comme documenté ici.

Le pire ça reste les colonnes, même FineReader est incapable de les distinguer à cause du titre d'en-tête et des lettres intercalées... Reste à trouver une méthode pour remplacer mon mauvais OCR splitté par le nouveau dans les pages déjà créées. Je me tâte à demander une autorisation de robot et à creuser le sujet .

Hsarrazin (discussioncontributions)

Si les pages du bouquin sont encore "roses", tu peux utiliser le Match and Split, qui ne nécessite pas d'autorisation de robot :)

C'est juste un gadget, dont le mode d'emploi est . Même moi, j'arrive à l'utiliser, donc c'est pas très méchant ... et il me semble qu'il fonctionne sur tous les projets linguistiques (à vérifier).

Bon courage !

SyB~Anicium (discussioncontributions)

Crois bien que j'ai essayé ^^ Mais l'étape du MATCH échoue sur Vicifons :-/ Je reçois une erreur "match not found". Il me faudrait enclencher juste l'étape du SPLIT, mais impossible de faire apparaître l'onglet magique. Voir mon brouillon... Peut-être une panne ? Cela fonctionnait il y a encore 1 an.

Hsarrazin (discussioncontributions)

argh... :(

mais ton brouillon me paraît bien court pour un M/S. Il ne contient qu'une seule page, non ? as-tu essayé avec un fichier contenant une dizaine de pages ?

sinon, faudrait voir avec un des mainteneurs de M/S, ou au moins avec quelqu'un qui l'utilise couramment...

SyB~Anicium (discussioncontributions)

Oui, je n'ai mis qu'une seule page, c'est la technique que j'avais utilisée il y a 1 an : j'avais incrusté au début de chaque page du .txt une balise de Split, étant donné que j'étais sûr et certain de faire correspondre les pages. Une forme de copier/coller sans passer par le Match qui, vu la qualité de l'OCR, aurait échoué. Sur WSFR ça semble fonctionner : tu peux cliquer pour voir :) Je crois qu'il me faut tenter une invocation de Phe : en espérant ne pas l'ennuyer.

Hsarrazin (discussioncontributions)

mais, si tu n'as qu'une seule page dans ton document... inutile de faire un M/S... il suffit de coller ta page à la place de l'ancienne, non ?

l'intérêt du M/S est de découper un long texte, pour que le contenu soit ensuite placé dans les pages... ou alors, je n'ai pas compris ce que tu veux faire... ^^

SyB~Anicium (discussioncontributions)

Non non, j'ai TOUTES les pages (989 quand même) dans un .txt, et l'idée est donc bien de remplacer le texte (beaucoup moins bon) des pages en rose sur la version latine par ces pages mieux océrisées :)

SyB~Anicium (discussioncontributions)

(ou plus exactement, j'ai toutes les pages dans 989 fichiers .txt, que j'assemblerai dans un méga fichier texte en ajoutant au début de chaque page la balise permettant à la page d'aller se placer au bon endroit). Pour le remplissage de ces pages roses j'avais procédé ainsi, un seul clic sur l'onglet SPLIT et tout s'était rempli. Mais à l'époque j'ignorais qu'on pouvait produire un OCR latin beaucoup plus convainquant en identifiant les colonnes de texte au préalable. Erreur de jeunesse !

SyB~Anicium (discussioncontributions)
Hsarrazin (discussioncontributions)
SyB~Anicium (discussioncontributions)

Je reçois la même erreur, et pas d'apparition de l'onglet Split :-/ Par contre, la suppression de page fournit le résultat attendu : on repart de la nouvelle couche de texte. Ca pourrait se faire à la chaîne grâce à un bot : pour les admins, le Pywikibot permet de supprimer plusieurs pages (voire toutes celles d'un même livre) à la fois. : https://www.mediawiki.org/wiki/Manual:Pywikibot/delete.py

Hsarrazin (discussioncontributions)

oui, la suppression des pages créées permet de reprendre la couche texte du facsimile. Si tu l'as changée, c'est la bonne solution...

je suis admin sur laws, mais je ne sais pas utiliser les scripts python... par contre, si tu me donnes la liste des pages à supprimer, je peux le faire (je suis quelqu'un de très obstiné quand il s'agit de nettoyer un livre

SyB~Anicium (discussioncontributions)

Sans script, c'est quand même titanesque comme boulot :o Cela concerne toutes les pages rouges du Tome 1, et celles en rouge du Tome 2. Soit... 1979 pages. Ce n'est donc pas envisageable manuellement (même avec une obstination légendaire ^^) ! Mais peut-être qu'un(e) admin laws ou wsfr connaît Python ? C'est pas très compliqué à utiliser, j'ai par exemple appris rapidement à utiliser un script qui permet de récupérer automatiquement toutes les pages .jpeg haute définition d'un livre Gallica ! C'est monstrueusement pratique (https://prelia.hypotheses.org/441)

Hsarrazin (discussioncontributions)

mon problème est toujours le même... je suis sous Mac... ^^ tu as un mode d'emploi pour utiliser python sous mac ? :)

SyB~Anicium (discussioncontributions)

Hum, apparemment Python est installé de base sous Mac. Sinon il semble y avoir une technique pour faire tourner Pywikibot en ligne, mais je dois avouer que je ne comprends pas tout :D Bah, si jamais tu as du temps à revendre, les pages 379 à 411 du Tome 2 me seraient bien utiles ! (juste après les pages que j'ai déjà corrigées). Elles correspondent aux colonnes 719 à 784 indiquées dans le pagelist. Mais c'est loin d'être une urgence, chaque page nécessitant environ 30 minutes de correction :o

Hsarrazin (discussioncontributions)

le tome 2 de quoi ?

je veux bien m'attaquer aux pages que tu veux, mais un lien de départ vers la page d'index, et même la première page à supprimer, me faciliterait la vie

SyB~Anicium (discussioncontributions)
Hsarrazin (discussioncontributions)

Fait - comme tu voies, par petits paquets, ça va assez vite

SyB~Anicium (discussioncontributions)
o Voilà de quoi m'occuper entre deux volumes du Recueil des historiens de la Gaule :D Merci !!!
Hsarrazin (discussioncontributions)

tu redemandes un lot quand tu veux

Répondre à « ton tutoriel sur le DjVu et les outils pour Mac »