Sujet sur Discussion utilisateur:Cunegonde1

Khardan (discussioncontributions)

Bonsoir,

Voilà, le fichier Fichier:Le Petit Bourguignon-Arsène Lupin-Test.djvu est finalisé. Comme je l'ai dit, j'ai eu un mal fou à rajouter la couche texte:

  1. En OCRisant les images du fichier, cela donnait un résultat pitoyable car certaines images sont trop claires, trop foncées, ou ont des lignes noires en haut, à gauche, à droite et cela donnait un peut de tout.
  2. Du coup, comme on avait le texte déjà là, à peu de choses près, c'est ce texte que j'ai mis dans la couche texte du DjVu
  3. Comme je ne suis pas du tout perl, mais plutôt python, je me suis réécrit le djvu-ocr.pl en python
  4. Mais ce script faisant son boulot de A à Z sans interruption, pour pouvoir insérer ma proche couche texte intermédiaire, je l'ai scindé en 2 scripts distincts: l'un DjVu->OCR->FichierTexte et le second Fichier texte-> Insertion->DjVu; et donc j'en ai profité pour faire des retouches à ce fichier intermédiaire.
  5. Le second script me mangeait des lignes blanches de temps en temps; comme il rajoutait la couche texte par ligne comme ceci :

(page 0 0 1 1
(line 0 0 1 1 "toto")
(line 0 0 1 1 "toto la la")
)

je l'ai transformé pour que la couche texte soit désormais au niveau page:

(page 0 0 1 1
"toto
toto la la")
)

et là c'est beaucoup mieux, en tout cas pour moi.

  1. J'ai inséré (ai-je le droit ?) une couverture avec uniquement des éléments titre/auteur/nom journal/dates prises dans le journal le petit bourguignon: car c'est plus sympa d'avoir un pdf ou epub avec une couverture

et je crois que j'ai fait le tour de mes déboires... Je vais uploader le fichier sur Commons et faire supprimer celui-là. ~~~~.

Fichier sur Commons ► Fichier:Leblanc_-_Arsène_Lupin_contre_Herlock_Sholmes,_1908.djvu

Cunegonde1 (discussioncontributions)

Bravo Notification Khardan :, bien sûr que tu as le droit de rajouter une couverture (en tout cas de mon point de vue de simple contributeur).

Sur le plan technique, j'avais moi aussi ocrisé la version du 28 février, mais j'ai laissé tomber vu la piètre qualité du résultat obtenu.

Cela fait des années que je cherche ici et là un script permettant d'injecter directement une couche texte dans un djvu sans succès (je ne programme pas ou peu).

Le résultat de ta solution revient à ce que fait Hathitrust dans les pdf reconstitués par hathi-downloader.

Le seul point qui me gène c'est que l'on ne peut pas contrôler la couche texte de chaque page ; le script djvu-ocr.pl n'incluant pas cette possibilité.

Pour les ocr que je fais avec Abbyy-Finereader ou avec ocrmypdf (qui utilise tesseract) la couche texte est visible lorsque l'on charge le fichier avec DejaView (de la suite djvulibre) avec l'option "voir/affichage/texte caché".

En tout cas si tu veux bien partager ton script, je le testerai pour voir ce que cela donne.

Khardan (discussioncontributions)

Bonsoir,
Je vais optimiser les scripts que j'ai utilisés avant de te les mettre à disposition. En plus des deux que j'ai (DjVu->OCR->FichierTexte, FichierTexte-> Insertion->DjVu), je vais en faire un troisième pour extraire la couche texte d'un DjVu: DjVu -> FichierTexte de la Couche texte), car le premier ne m'a finalement pratiquement pas servi (puisque j'ai remplacé tout les textes par ce qu'on avait). Bien sûr les 3 FichiersTexte produits ou pris en compte seraient de structure identiques pour que tout soit compatible (et j'ai même envie de le rendre compatible avec le format du Split parce que c'est presque ce que j'ai ; et ce troisième serait beaucoup plus utile du coup. Compter une ou deux semaines au moins, je te tiendrai informé... — Khardan (d) 13 mars 2024 à 18:30 (UTC).

Cunegonde1 (discussioncontributions)

Merci Notification Khardan : pour ces propositions. Toutefois la suite djvu libre propose déjà un programme (djvutxt) en ligne de commande qui extrait la couche texte d'un djvu et djvutoxml qui, couplé avec djvuxmlparser permet d'extraire la couche texte au format xml, de la modifier en tant que de besoin puis de la réinjecter dans le djvu. Le fichier xml est plus facilement manipulable si lors de la création du djvu avec pdf2djvu on choisit l'option --lines (plutôt que des box par mot).

Répondre à « Arsène Lupin 1908 »