« Aide:Comment numériser » : différence entre les versions

Contenu supprimé Contenu ajouté
Kalki101 (discussion | contributions)
typo
Ligne 15 :
 
== Photographie (scan) de textes ==
Cette photographie s’effectue à l’aide d’un outil spécialisé appelé "« scanner" ».
 
Les photographies effectuées sont alors stockées sous forme d’images (JPEG, ...) ou regroupées dans des "« fichiers images" » de type PDF ou TIFF. De la qualité de la photographie dépendra de la plus ou moins grande réussite de l’étape suivante qu’est la reconnaissance optique. Il est donc conseillé d’effectuer des images avec une résolution de 300 dpi (dpi = ‘‘dots''dots per inch’’inch'', en français ‘‘points« points par pouce’’pouce »). Une résolution inférieure (par exemple 200 dpi) peut également fonctionner si la source est en bon état et qu’il y a un bon contraste entre la couleur du papier et celle des caractères. Une résolution supérieure peut être utile dans le cas contraire, sachant que plus la résolution est élevée, plus le temps de "''scanning"'' sera long et plus gros sera le fichier généré.
 
Les scanners individuels sont en général vendus avec un logiciel de paramétrage, permettant de régler plus ou moins finement cette étape photographique.
 
::'''Note :''' étant donné la résolution des appareils photo numériques actuels, il n'est pas nécessaire de disposer d'un scanner pour numériser un texte.
 
== Téléchargement à partir du site Gallica ==
Il existe des sites spécialisés qui fournissent déjà des fichiers images de textes. Le plus connu est [http://gallica.bnf.fr/ Gallica], bibliothèque numérique de la Bibliothèque Nationale de France.
 
Par défaut, Gallica offre l’accès à l’œuvre page par page. Pour obtenir l’œuvre complète — ou un extrait de plusieurs pages —, il faut, lorsqu’une des pages est affichée, demander un "« Téléchargement" » en indiquant le format du fichier ([[w:Portable Document Format|PDF]] ou [[w:Tagged Image File Format|TIFF]]) et le nombre de pages. Le fichier généré sera sauvegardé pendant 48 heures sur les serveurs de Gallica.
 
La récupération du fichier (souvent de plusieurs Mo) n’est pas toujours simple. En effet, le lien proposé par Gallica (''Vous pouvez le télécharger en <font size="-1" color="blue">cliquant ici</font>. Utiliser le clic droit et "« Enregistrer le lien sous…" » pour Netscape ou "« Enregistrer la cible sous…" » pour Internet Explorer'') utilise le protocole de communication [[w:Hypertext Transfer Protocol|HTTP]], peu fiable pour de gros fichiers. Il vaut mieux utiliser le protocole de communication [[w:File Transfer Protocol|FTP]].
 
=== Utilisation du FTP ===
Ligne 39 :
Préalablement, notez les références données par Gallica lorsque le fichier demandé a été généré (bas de la page). Vous aurez quelque chose comme ''chemin du fichier = ftp://ftp.bnf.fr/002/N0022607_PDF_1_484.pdf''. Ici, le fichier que nous recherchons est ''N0022607_PDF_1_484.pdf'' présent dans le répertoire ''002''.
 
L’utilisation du navigateur implique que celui-ci soit assez récent. Vous pouvez alors taper l’adresse '''ftp.bnf.fr''' (ou ftp://ftp.bnf.fr) qui vous affichera alors la page "« répertoire" » de Gallica. Cette page répertoire donne une liste de sous-répertoires notés "« nnn" ». Dans notre cas, le sous-répertoire est ''002''. En cliquant sur ce répertoire, vous verrez apparaître une liste des fichiers, dont le vôtre. Utilisez "« rechercher dans la page" » (avec, dans notre cas, 22607) pour retrouver plus facilement votre fichier. Vous pouvez alors le télécharger en cliquant avec le bouton droit de la souris, puis "« Enregistrer le lien sous…" ».
 
Il existe également des logiciels de transfert FTP spécialisés, autorisant des transferts avec reprise en cas d’interruption. Parmi les gratuits, il y a notamment :
Ligne 56 :
 
== Reconnaissance optique des caractères (OCR)==
En anglais [[w:Reconnaissance optique de caractères|OCR]], cette étape "« transforme" » une image d’un texte en un texte lui-même, composé de caractères. Elle est réalisée par des logiciels spécialisés.
 
Certains de ces logiciels sont vendus avec le "« scanner" », d’autres sont récupérables en ligne, et peuvent être gratuits ou payants.
 
Il y a une grande différence de qualité entre ces logiciels, et cette différence aura des conséquences importantes sur la facilité d’utilisation, la qualité du résultat produit et donc le temps que vous passerez lors de cette étape. Voir la [[w:Reconnaissance optique de caractères#Quelques logiciels de reconnaissance optique de caractères|liste sur Wikipédia]]. Ou [http://doc.ubuntu-fr.org/ocr la liste sur la documentation ubuntu] ( pour linux et windows ).