Contenu supprimé Contenu ajouté
en cours de rédaction
en cours de rédaction
Ligne 1 :
(http://scantailor.org/(Pour ma page perso voir : [[w:Utilisateur:Miniwark|Utilisateur Miniwark sur Wikipédia]]
 
{{#babel:fr-N|en-2|es-1|el-0}}
 
== Petit pense-bête des étapes de publication d'un livre sur WikiSource ==
 
== Étapes pour créer un DjVu sous Linux depuis Gallica ==
# Scanner ou repérer un livre sur Gallica/Europeana/Internet Archive etc.
# Utiliser http://tools.wmflabs.org/bub/ pour generer le fichier DjVu (avec OCR) en ligne
# Si BUB ne fonctionne pas passer manuellement par Internet Archive selon cette procédure https://fr.wikisource.org/wiki/Aide:Cr%C3%A9er_un_fichier_DjVu#Conversion_en_ligne
# Envoyer le fichier générer sur Commons
# Créer l’espace 'Livre' sur WikiSource
# Éditer les pages
 
Résumé des étapes :
== Étapes pour créer un DjVu sous Linux ==
 
====# Importer les images depuis Gallica ====
# Améliorer la qualité de la numérisation
====# CréerGénérer le fichier DjVu ====
# Ajouter la couche OCR
 
 
=== 1. Importer depuis Gallica ===
 
# Créer un dossier pour le livre à télécharger. Par exemple <code>/Auteur/Titre</code>
Ligne 41 :
Une fois le script lancé vous devez avoir une série d'images du genre page_000X.png dans votre dossier <code>/Auteur/Titre</code>.
 
==== 2. Améliorer la qualité desde la numérisationsnumérisation ====
 
Afin, de supprimer les artefacts de numérisation et en particulier, les bords de livre, les rotations et les ''watermarks'' de Ggallica, il est préférable de faire un traitement des images obtenues à l'aide de '''[http://scantailor.org/ Scan Tailor]'''.
Ligne 60 :
Une fois le traitement terminé ''Scan Taillor'' crée autant de nouvelles images qu'au départ au format TIFF dans un sous-dossier <code>/Auteur/Titre/out</code>.
 
==== Créer le fichier DjVu ====
===== Solution 1 : script (recommandée) =====
 
=== 3. Générer le fichier DjVu ===
# placer ce script dans le dossier <code>/Auteur/Titre/out</code> puis l’executer
===== 3.1 Solution 1 : script (recommandée) =====
 
# placer ce script dans le dossier <code>/Auteur/Titre/out</code> puis l’executerl’exécuter
 
#!/bin/bash
Ligne 87 ⟶ 88 :
 
 
===== 3.2 Solution 2 : djvubind =====
La deuxième solution, si les images sont de bonne qualitée, est d'utiliser '''[https://github.com/strider1551/djvubind djvubind]'''. L'avantage c’est que ''djvubind'' crée directement le fichier DjVu final tout en réalisant l'OCR (à l'aide de Tesseract ou Cuneiform). Cependant ''djvubind'' utilise ''minidjvu'' qui à tendance à diminuer la qualité des textes surtout si la police d'origine est petite. Si il a trop d’erreur, d'OCR, utiliser la solution 1.
 
Si ''djvubind'' ne génère pas d'alertes OCR alors le travail est terminé.
 
Exemple de commande avec ''djvubind''
Ligne 97 ⟶ 100 :
 
 
===== ImagesAjouter enla couleur/couche niveauOCR de gris =====
 
À ce stade nous avons un fichier DjVu sans couche OCR et contenant des images en couleur ou niveau de gris (sauf si djvubind donne un résultat satisfaisant). Il faut à présent ajouter cet OCR à l'aide de '''Tesseract'''.
Afin de conserver la meilleur qualité passible, il faut utiliser [http://djvu.sourceforge.net/doc/man/c44.html C44 de DjVuLibre].
 
Pour cela récupérer et enregistrer le script Python depuis [[s:en:User:Inductiveload/Scripts/DJVU_OCR]] dans <code>/Auteur/Titre/</code>.
<!--Le plus simple est d'utiliser '''[http://jwilk.net/software/didjvu didjvu]''' en ligne de commande.
 
et lancer la commande :
Pour créer un fichier DjVu à partir du dossier ''out'' généré par ''Scan Taillor'' en couleur / niveau de gris la commande est la suivante :
 
didjvu bundle ~/wikisource/auteur/livre/out/*.tif -o auteur-livre.djvu
Compter environ 1 heure pour 100 pages d'attente.
 
''didjvu'', peut dégrader le texte en le rendant légèrement flou. Si le résultat de l'OCR
 
utilise en sous main la commande [http://djvu.sourceforge.net/doc/man/c44.html C44 de DjVuLibre].
 
== Étapes pour créer un DjVu sous Linux depuis un scanner ==
Si les images sont bitonales (noir et blanc) il faut utiliser ''minidjvu'' à la place :
 
Note: pour le moment '''ocrodjvu''' ne fonctionne qu'avec les images bitonales (noir et blanc)
 
 
L'alternative est d'utiliser '''[http://gscan2pdf.sourceforge.net/ gscan2pdf]''' mais cela ne convient que pour les livres ne contenant que moins de 400-500 images.
Au delà, ''gscan2pdf'' se fige lors de l'importation des images.-->
 
==== Références ====