« Aide:Comment numériser » : différence entre les versions

Contenu supprimé Contenu ajouté
François (discussion | contributions)
Correction
François (discussion | contributions)
Typo
Ligne 1 :
La numérisation d'und’un texte s'effectues’effectue en trois phases distinctes :
<ol>
<li> photographie (scan) de chaque page,
Ligne 8 :
 
== Photographie (scan) de textes ==
Cette photographie s'effectues’effectue à l'aidel’aide d'und’un outil spécialisé appelé "scanner".
 
Les photographies effectuées sont alors stockées sous forme d'imagesd’images (JPEG, ...) ou regroupées dans des "fichiers images" de type PDF ou TIFF. De la qualité de la photographie dépendra de la plus ou moins grande réussite de l'étapel’étape suivante qu'estqu’est la reconnaissance optique. Il est donc conseillé d'effectuerd’effectuer des images avec une résolution de 300 dpi (dpi = ''dots‘‘dots per inch''inch’’, en français ''points‘‘points par pouce''pouce’’). Une résolution inférieure (par exemple 200 dpi) peut également fonctionner si la source est en bon état et qu'ilqu’il y a un bon contraste entre la couleur du papier et celle des caractères. Une résolution supérieure peut être utile dans le cas contraire, sachant que plus la résolution est élevée, plus le temps de "scanning" sera long et plus gros sera le fichier généré.
 
Les scanners individuels sont en général vendus avec un logiciel de paramétrage, permettant de régler plus ou moins finement cette étape photographique.
Ligne 18 :
Il existe des sites spécialisés qui fournissent déjà des fichiers images de textes. Le plus connu est [http://gallica.bnf.fr/ Gallica], bibliothèque numérique de la Bibliothèque Nationale de France.
 
Par défaut, Gallica offre l'accèsl’accès à l'oeuvrel’œuvre page par page. Pour obtenir l'oeuvrel’œuvre complète - ou un extrait de plusieurs pages -, il faut, lorsqu'unelorsqu’une des pages est affichée, demander un "Téléchargement" en indiquant le format du fichier ([[w:Portable Document Format|PDF]] ou [[w:Tagged Image File Format|TIFF]]) et le nombre de pages. Le fichier généré sera sauvegardé pendant 48 heures sur les serveurs de Gallica.
 
La récupération du fichier (souvent de plusieurs Mo) n'estn’est pas toujours simple. En effet, le lien proposé par Gallica (''Vous pouvez le télécharger en <font size="-1" color="blue">cliquant ici</font>. Utiliser le clic droit et "Enregistrer le lien sous…" pour Netscape ou "Enregistrer la cible sous…" pour Internet Explorer'') utilise le protocole de communication [[w:Hypertext Transfer Protocol|HTTP]], peu fiable pour de gros fichiers. Il vaut mieux utiliser le protocole de communication [[w:File Transfer Protocol|FTP]].
 
Pour utiliser [[w:File Transfer Protocol|FTP]], il existe deux manières :
Ligne 30 :
Préalablement, notez les références données par Gallica lorsque le fichier demandé a été généré (bas de la page). Vous aurez quelque chose comme ''chemin du fichier = ftp://ftp.bnf.fr/002/N0022607_PDF_1_484.pdf''. Ici, le fichier que nous recherchons est ''N0022607_PDF_1_484.pdf'' présent dans le répertoire ''002''.<br /><br />
 
L'utilisationL’utilisation du navigateur implique que celui-ci soit assez récent. Vous pouvez alors taper l'adressel’adresse '''ftp.bnf.fr''' (ou ftp://ftp.bnf.fr) qui vous affichera alors la page "répertoire" de Gallica. Cette page répertoire donne une liste de sous répertoires notés "nnn". Dans notre cas, le sous-répertoire est ''002''. En cliquant sur ce répertoire, vous verrez apparaitre une liste des fichiers, dont le vôtre. Utilisez "rechercher dans la page" (avec, dans notre cas, 22607) pour retrouver plus facilement votre fichier. Vous pouvez alors le télécharger en cliquant avec le bouton droit de la souris, puis "Enregistrer le lien sous…".
 
Il existe également des logiciels de transfert FTP spécialisés, autorisant des transferts avec reprise en cas d'interruptiond’interruption. Parmi les gratuits, il y a :
* SmartFTP
* FreeFTPManager (attention : en téléchargeant ce dernier, j'aij’ai récupéré des [[w:Logiciel espion|spywares]] qui ont été difficile à retirer, même avec un anti-spyware comme [[w:Ad-Aware|AdAware]] ; il m'am’a fallu bricoler la base de registres. [[Utilisateur:François|François]] 31 mai 2006 à 11:47 (UTC)).
 
Le transfert de fichier avec reprise s'effectues’effectue en créant une file (queue) avec les fichiers demandés, puis en lançant la demande de chargement. Votre configuration locale, et notamment le [[w:Pare-feu|pare-feu]], ou la configuration de votre fournisseur d'accèsd’accès internet peuvent gêner voire empêcher le fonctionnement de ces logiciels, et des opérations de paramétrage complexes du système d'exploitationd’exploitation, du pare-feu et/ou de ces logiciels peuvent être nécessaires.
 
 
== Reconnaissance optique des caractères ==
En anglais [[w:Reconnaissance optique de caractères|OCR]], cette étape "transforme" une image d'und’un texte en un texte lui-même, composé de caractères. Elle est réalisée par des logiciels spécialisés.
 
Certains de ces logiciels sont vendus avec le "scanner", d'autresd’autres sont récupérables en ligne, et peuvent être gratuits ou payants.
 
Il y a une grande différence de qualité entre ces logiciels, et cette différence aura des conséquences importantes sur la facilité d'utilisationd’utilisation, la qualité du résultat produit et donc le temps que vous passerez lors de cette étape. Voir la [[w:Reconnaissance optique de caractères#Quelques logiciels de reconnaissance optique de caractères|liste sur Wikipédia]].
 
Celui qui possède la meilleure réputation parmi les habitués de la numérisation est [http://www.abbyy.com/ FineReader], payant mais gratuit à l'essail’essai pendant 15 jours. Il permet notamment de prendre en compte un fichier image complet (et non page par page comme certains) et restitue correctement la présentation et le contenu lui-même, tout en étant rapide.
 
 
== Correction ==
L'étapeL’étape de reconnaissance optique des caractères ne permet que très rarement d'obtenird’obtenir un résultat parfait. La plupart du temps, le logiciel ne reconnaîtra pas quelques lettres ou mots, ou les considèrera comme un autre mot ou une autre lettre.
 
Les erreurs les plus courantes sont :
* entre le ''u'' et le ''n'',
* entre le ''a'' et le ''o'',
* entre le ''l'' (parfois ''L'') et le ''1'',
* entre le ''m'' et le ''n'' combiné avec une autre lettre,
* entre le ''!'' et le ''l'',
* sur la ponctuactionponctuation (ajout, confusion ou absence de points, virgules, point-virgules, deux-points, ...)
* sur l'accentuationl’accentuation des mots (confusion entre les accents aigües, graves, circonflexes et le tréma ; absence de ces accents)
* etc
 
Il est donc '''impératif de relire le plus soigneusement possible''' les textes ainsi numérisés, ou d'indiquerd’indiquer dans la page de discussion une note sur la réalisation ou non de cette étape de relecture.