Sujet sur Wikisource:Forum des nouveaux

Comment démarrer mon projet de numérisation ?

7
Smaragdus (discussioncontributions)

Bonjour à tous, il y a un livre que j'aime bien (Theuriet, André. - Madame Heurteloup, ca1880) et qui n'est pas numérisé dans Gallica ni Archive.org. C'est un ouvrage qui est dans le domaine public. Je m'en suis procuré un exemplaire et je souhaiterais le scanner, faire le traitement OCR puis le publier sur Wikisource. Je ne sais malheureusement pas par où commencer ? Aussi, je viens humblement demander un peu d'aide. D'avance merci ! @Smaragdus

Acélan (discussioncontributions)

Bonjour,

Il faut commencer par le numériser en pdf.

Ensuite, si tu as un bon logiciel d'OCR, tu peux faire toi-même la reconnaissance de caractère, et enregistrer de préférence le fichier au format djvu ; puis déposer le fichier sur Commons, pour ensuite créer la page d'index (je n'ai pas le temps maintenant d'expliquer comment on fait, mais je pourrai le faire tout à l'heure), c'et-à-dire la page du livre.

si tu n'as pas de logiciel d'OCR, tu peux déposer quelque part ton fichier pdf et donner le lien, soit ici, soit directement sur ma page de discussion.

PS : j'ai vu que tu faisais partie des utilisateurs désirant être parrainés, je veux bien te parrainer si la demande est toujours valable.

Smaragdus (discussioncontributions)

Bonjour Acélan,

j'accepte bien sûr que tu me parraines.

J'ai pour l'instant scanné en 300dpi la première page et sauvegardé en .jpg ; j'ai ensuite appliqué l'OCR et fait la correction dans un fichier .odt (LibreOffice). Je peux sauvegarder mes scanns en .djvu sans problème.

Je ne suis pas très satisfait du logiciel OCR qui est sur mon ordi. Du coup, j'ai utilisé pour cette opération le site : http://www.free-ocr.com/fr.html

Merci pour tes conseils

Acélan (discussioncontributions)

Si tu veux, une fois que tu auras fait le djvu, je pourrai faire l'OCR pour l'ensemble de l'ouvrage : j'ai un logiciel plutôt satisfaisant. C'est plus rapide que de faire page par page. C'est du reste le seul moyen que je connaisse pour intégrer la couche texte au fichier djvu ; il y en a sans doute d'autres, mais qui dépassent mes compétences.

Smaragdus (discussioncontributions)

Je vais donc scanner toutes les pages (82) et et les sauvegarder en autant de fichiers djvu ? C'est bien cela ? Ensuite, nous suivrons ta méthode.

L'édition que j'ai est une édition bon marché (Select-Collection chez Flammarion) ; ça se présente comme une brochure avec le texte en deux colonnes par page. je n'en ai pas d'autre à ma disposition. Conviendra-t-elle ?

Acélan (discussioncontributions)

Non, il faut faire un seul fichier djvu de l'ensemble (mais ça, je ne sais pas faire ; tout ce que je sais faire, c'est numériser en un fichier pdf puis transformer ça en djvu). Je sais qu'il est possible de faire un djvu avec un ensemble de fichiers jpg, mais je ne sais pas faire ça ; il faudrait éventuellement regarder sur l'aide, ou sinon, lancer un appel sur le scriptorium, qui est plus suivi que le forum des nouveaux.

Un texte en deux colonnes : ce n'est pas l'idéal, mais c'est possible, et parfois, on n'a pas le choix ; si la numérisation est bonne, ça n'est pas gênant.

Smaragdus (discussioncontributions)

Bon, j'ai trouvé comment faire à partir de plusieurs scanns un unique fichier djvu. Merci pour tous ces renseignements et je vous recontacte une fois que j'ai ce fichier. Cordialement