Aide:Comment numériser

Aide : Manuel de Wikisource

Photographie (scan) de textes

Cette photographie s’effectue à l’aide d’un outil spécialisé appelé « scanner ».

Les photographies effectuées sont alors stockées sous forme d’images (JPEG, ...) ou regroupées dans des « fichiers images » de type PDF ou TIFF. De la qualité de la photographie dépendra la plus ou moins grande réussite de l’étape suivante qu’est la reconnaissance optique. Il est donc conseillé d’effectuer des images avec une résolution de 300 dpi (dpi = dots per inch, en français « points par pouce »). Une résolution inférieure (par exemple 200 dpi) peut également fonctionner si la source est en bon état et qu’il y a un bon contraste entre la couleur du papier et celle des caractères. Une résolution supérieure peut être utile dans le cas contraire, sachant que plus la résolution est élevée, plus le temps de scanning sera long et plus gros sera le fichier généré.

Les scanners individuels sont en général vendus avec un logiciel de paramétrage, permettant de régler plus ou moins finement cette étape photographique.

Note : étant donné la résolution des appareils photo numériques actuels, il n’est pas nécessaire de disposer d’un scanner pour numériser un texte.

Éditer les textes avec les images

Pour assurer la qualité des textes édités sur Wikisource, il est très important de disposer d’une source (édition papier ou images de cette édition). Pour les images, il est possible de les charger sur Wikisource et de les placer à côté du texte pour en faciliter la relecture.

Pour plus de détail sur ce genre d’édition, voir Aide:Transcription.

Reconnaissance optique des caractères (OCR)

Aide détaillée : Aide:OCR

En anglais OCR, cette étape « transforme » une image d’un texte en un texte lui-même, composé de caractères. Elle est réalisée par des logiciels spécialisés.

Certains de ces logiciels sont vendus avec le « scanner », d’autres sont récupérables en ligne, et peuvent être gratuits ou payants.

Il y a une grande différence de qualité entre ces logiciels, et cette différence aura des conséquences importantes sur la facilité d’utilisation, la qualité du résultat produit et donc le temps que vous passerez lors de cette étape. Voir la liste sur Wikipédia, ou la liste sur la documentation Ubuntu (pour Linux et Windows).

Celui qui possède la meilleure réputation parmi les habitués de la numérisation est FineReader, payant mais gratuit à l’essai pendant quinze jours. Il permet notamment de prendre en compte un fichier image complet (et non page par page comme certains) et restitue correctement la présentation et le contenu lui-même, tout en étant rapide. À noter que, sous Linux, certaines versions de FineReader peuvent être installées avec Wine.

Il est possible d’utiliser le site gratuit http://www.free-ocr.com, mais il n’accepte qu’une page à la fois.

Correction

L’étape de reconnaissance optique des caractères ne permet que très rarement d’obtenir un résultat parfait. La plupart du temps, le logiciel ne reconnaîtra pas quelques lettres ou mots, ou les considèrera comme un autre mot ou une autre lettre.

Les erreurs les plus courantes sont :

entre le u et le n,
entre le a et le o,
entre le l (parfois L) et le 1,
entre le m et le n combiné avec une autre lettre,
entre le ! et le l,
sur la ponctuation (ajout, confusion ou absence de points, virgules, points-virgules, deux-points, ...)
sur l’accentuation des mots (confusion entre les accents aigus, graves, circonflexes et le tréma ; absence de ces accents)
etc.

Il est donc impératif de relire le plus soigneusement possible les textes ainsi numérisés, ou d’indiquer dans la page de discussion une note sur la réalisation ou non de cette étape de relecture.

Voir Wikisource:Chasse aux coquilles pour les coquilles les plus fréquentes.

Processus de validation

1. Livres disponibles en mode page| 2. À relire | 3. À valider (notation qualité)| 4. Terminés | 5. Protégés

Livres en mode page : À formater - Trouver un scan - Trouver une source texte
Comment numériser ?