Miniwark
Contenu supprimé Contenu ajouté
en cours de rédaction |
en cours de rédaction |
||
Ligne 1 :
{{#babel:fr-N|en-2|es-1|el-0}}
== Étapes pour créer un DjVu sous Linux depuis Gallica ==▼
Résumé des étapes :
▲== Étapes pour créer un DjVu sous Linux ==
# Améliorer la qualité de la numérisation
# Ajouter la couche OCR
=== 1. Importer depuis Gallica ===
# Créer un dossier pour le livre à télécharger. Par exemple <code>/Auteur/Titre</code>
Ligne 41 :
Une fois le script lancé vous devez avoir une série d'images du genre page_000X.png dans votre dossier <code>/Auteur/Titre</code>.
Afin, de supprimer les artefacts de numérisation et en particulier, les bords de livre, les rotations et les ''watermarks'' de Ggallica, il est préférable de faire un traitement des images obtenues à l'aide de '''[http://scantailor.org/ Scan Tailor]'''.
Ligne 60 :
Une fois le traitement terminé ''Scan Taillor'' crée autant de nouvelles images qu'au départ au format TIFF dans un sous-dossier <code>/Auteur/Titre/out</code>.
▲==== Créer le fichier DjVu ====
===== Solution 1 : script (recommandée) =====▼
=== 3. Générer le fichier DjVu ===
# placer ce script dans le dossier <code>/Auteur/Titre/out</code> puis l’executer▼
#!/bin/bash
Ligne 87 ⟶ 88 :
La deuxième solution, si les images sont de bonne qualitée, est d'utiliser '''[https://github.com/strider1551/djvubind djvubind]'''. L'avantage c’est que ''djvubind'' crée directement le fichier DjVu final tout en réalisant l'OCR (à l'aide de Tesseract ou Cuneiform). Cependant ''djvubind'' utilise ''minidjvu'' qui à tendance à diminuer la qualité des textes surtout si la police d'origine est petite. Si il a trop d’erreur, d'OCR, utiliser la solution 1.
Si ''djvubind'' ne génère pas d'alertes OCR alors le travail est terminé.
Exemple de commande avec ''djvubind''
Ligne 97 ⟶ 100 :
À ce stade nous avons un fichier DjVu sans couche OCR et contenant des images en couleur ou niveau de gris (sauf si djvubind donne un résultat satisfaisant). Il faut à présent ajouter cet OCR à l'aide de '''Tesseract'''.
Pour cela récupérer et enregistrer le script Python depuis [[s:en:User:Inductiveload/Scripts/DJVU_OCR]] dans <code>/Auteur/Titre/</code>.
et lancer la commande :
Compter environ 1 heure pour 100 pages d'attente.
== Étapes pour créer un DjVu sous Linux depuis un scanner ==
Note: pour le moment '''ocrodjvu''' ne fonctionne qu'avec les images bitonales (noir et blanc)
==== Références ====
|