Sujet sur Discussion utilisateur:Cunegonde1

Etienne M (discussioncontributions)

Bonjour Cunegonde ! En cours de révision d'une série, je m'aperçois qu'un volume a un doublon : serait-ce possible pour toi de corriger en supprimant ce doublon ?

Aussi, j'avais téléchargé ce fs de Gallica en pdf il y a 4 ans, et je m'étonne de sa taille : 183,87 Mio, alors que ce n'est que du texte à l'exception d'une page, et toutes en noir et blanc !! Je ne sais pas s'il était possible de réduire sa taille par une meilleure compression... Quand je le convertis en DjVu sur pdfonline.org, c'est encore pire au niveau de son poids...

Belle journée à toi !

Cunegonde1 (discussioncontributions)

Bonjour @Etienne M. Je vais voir ce que je peux faire, le mieux serait de créer un djvu à partir des images sources de Gallica. Une fois cet import réalisé, on peut récupérer les pages déjà corrigées et ensuite demander la suppression du fichier pdf sur WS et sur Commons. Pour le poids du livre, c'est dû au fait que c'est en niveaux de gris et non en noir et blanc. Je convertirai les images en noir et blanc pour limiter le poids total du fichier. Il faudra juste être un peu patient car c'est un gros fichier qui demandera un travail préparatoire assez long. Je vais aussi vérifier que des problèmes de paginations ne se trouvent pas également ailleurs dans le fichier.

Cunegonde1 (discussioncontributions)
Etienne M (discussioncontributions)

Whaou ! Un très grand merci, Cunegonde. Encore une fois, tu facilites le travail sur les fac-similés ! J'ai renommé les pages de l'autre fichier trop lourd. Je te remercie de m'avoir donné la cause du poids du fichier : j'ignorais que le mode "niveaux de gris" pouvait à ce point alourdir par rapport au mode "noir et blanc"... Pour alléger ce fichier, as-tu fait une autre manip ? J'ai en effet d'autres DjVu que j'aimerais verser dans Commons, mais qui sont beaucoup trop lourds… J'ai le logiciel DjVuToy et je peux faire de nouvelles manips ! Bonne nuit à toi, en te remerciant.

Cunegonde1 (discussioncontributions)

Bonjour @Etienne M comme d'habitude, j'ai exécuté les opérations suivantes :

  • récupération des images source sur Gallica avec le script de @Seudo gallica.py ;
  • traitement des images de pages avec Scantailor, en choisissant en sortie le mode noir et blanc et une résolution de 600 dpi ;
  • conversion des fichiers tif générés par Scantailor en fichier un fichier pdf ;
  • OCR du fichier pdf avec le script ocrmypdf ;
  • Conversion du fichier pdf océrisé en fichier djvu avec pdf2djvu avec une résolution de 600 dpi.

J'aurai pu diviser par 2 le poids du fichier djvu final en choisissant à la dernière étape une résolution de 300 dpi.

Etienne M (discussioncontributions)

Bonsoir Cunegonde1 !

Merci de m'avoir indiqué ton procédé que j'aimerais suivre à partir de maintenant !

J'ai téléchargé Scantailor, et Python 3 demandé par le script de @Seudo. Par contre, je n'ai pas réussi à comprendre comment on crée un fichier "gallica.py" sur Python : c'est une "invite de commande", j'y ai copié le code et avec un clic droit : "Exporter le texte" et je me retrouve avec un document texte (.txt)… Comme je ne suis pas connaisseur, j'attends de voir si Seudo pourra m'éclairer là-dessus.

Il me tarde de pouvoir faire ces conversions de fichier, mais aucun soucis si j'ai sa réponse plus tard. C'est pour importer plusieurs des ouvrages présents dans Wikisource:L'école d'Ancien régime#À importer (présents sur internet) dont je présenterai certains passages si je suis retenu pour un colloque. :D

Enfin, j'imagine que la résolution de 600 dpi permet une + grande reconnaissance de caractères lors de l'océrisation ?

Belle soirée à toi !

Cunegonde1 (discussioncontributions)

@Etienne M Avec Gallica.py, il faut copier le code de Seudo et le coller dans un fichier texte intitulé Gallica.py. Si la terminaison est différente, cela ne fonctionne pas on change donc la terminaison .txt par .py. Il faut ensuite modifier les droits du fichier Gallica.py ainsi créé pour lui donner des droits d'exécution. Ensuite on copie ce fichier dans un nouveau dossier dans lequel seront stockées les images de page téléchargées sur Gallica. Ensuite, toujours dans ce dossier on appelle une invite de commande via un terminal type sous linux ou cmd sous windows en indiquant la commande suivante (la commande que j'ai copiée pour le dernier import que j'ai fait) : python3 gallica.py bpt6k64340467 1 698 et normalement cela fonctionne. Si cela ne fonctionne pas s'assurer que le terminal est bien ouvert dans le dossier dans lequel se trouve le fichier Gallica.py.

Seudo (discussioncontributions)

Oui, toutefois je ne pense pas qu'il soit nécessaire de donner des droits d'exécution au fichier gallica.py, puisque l'exécutable est python3 (ou python.exe, selon la version de Python et le système d'exploitation).

Etienne M (discussioncontributions)

Bonjour et merci beaucoup Cunegonde et Seudo !

Ca y est, j'ai réussi ! Je me suis fait aider par un collègue pour Python, et ai pu enregistrer la commande grâce à Python en ligne.

Voilà le 1er scan que j'ai pu réaliser avec ta commande et ton tuto, Seudo, et tes conseils précieux, Cunegonde : Methode nouvelle, pour apprendre aux enfants.

Je l'ai fait passer par DjVuToy pour le convertir en DjVu et l'océriser, mais l'océrisation n'a pas fonctionné, ce n'est pas grave maintenant qu'on a le gadget "transcrire le texte" page après page.

Beau week-end à vous deux !!

Répondre à « Une page en doublon sur un livre »