Version du 11 mars 2015 à 20:27 modifier Miniwark (discussion \| contributions) Auto-patrouillés 4 058 modifications en cours de rédaction ← Modification précédente		Version du 11 mars 2015 à 20:48 modifier annuler Miniwark (discussion \| contributions) Auto-patrouillés 4 058 modifications en cours de rédaction Modification suivante →
Ligne 1 : ~~(http://scantailor.org/(~~Pour ma page perso voir : [[w:Utilisateur:Miniwark\|Utilisateur Miniwark sur Wikipédia]] {{#babel:fr-N\|en-2\|es-1\|el-0}} ~~== Petit pense-bête des étapes de publication d'un livre sur WikiSource ==~~ == Étapes pour créer un DjVu sous Linux depuis Gallica ==▼ ~~# Scanner ou repérer un livre sur Gallica/Europeana/Internet Archive etc.~~ ~~# Utiliser http://tools.wmflabs.org/bub/ pour generer le fichier DjVu (avec OCR) en ligne~~ ~~# Si BUB ne fonctionne pas passer manuellement par Internet Archive selon cette procédure https://fr.wikisource.org/wiki/Aide:Cr%C3%A9er_un_fichier_DjVu#Conversion_en_ligne~~ ~~# Envoyer le fichier générer sur Commons~~ ~~# Créer l’espace 'Livre' sur WikiSource~~ ~~# Éditer les pages~~ Résumé des étapes : ▲== Étapes pour créer un DjVu sous Linux == ~~====~~# Importer les images depuis Gallica ~~====~~ # Améliorer la qualité de la numérisation ~~====~~# ~~Créer~~Générer le fichier DjVu ~~====~~▼ # Ajouter la couche OCR === 1. Importer depuis Gallica === # Créer un dossier pour le livre à télécharger. Par exemple <code>/Auteur/Titre</code> Ligne 41 : Une fois le script lancé vous devez avoir une série d'images du genre page_000X.png dans votre dossier <code>/Auteur/Titre</code>. ==== 2. Améliorer la qualité ~~des~~de la ~~numérisations~~numérisation ==== Afin, de supprimer les artefacts de numérisation et en particulier, les bords de livre, les rotations et les ''watermarks'' de Ggallica, il est préférable de faire un traitement des images obtenues à l'aide de '''[http://scantailor.org/ Scan Tailor]'''. Ligne 60 : Une fois le traitement terminé ''Scan Taillor'' crée autant de nouvelles images qu'au départ au format TIFF dans un sous-dossier <code>/Auteur/Titre/out</code>. ▲==== Créer le fichier DjVu ==== ===== Solution 1 : script (recommandée) =====▼ === 3. Générer le fichier DjVu === # placer ce script dans le dossier <code>/Auteur/Titre/out</code> puis l’executer▼ ▲===== 3.1 Solution 1 : script (recommandée) ===== ▲# placer ce script dans le dossier <code>/Auteur/Titre/out</code> puis ~~l’executer~~l’exécuter #!/bin/bash Ligne 87 ⟶ 88 : ===== 3.2 Solution 2 : djvubind ===== La deuxième solution, si les images sont de bonne qualitée, est d'utiliser '''[https://github.com/strider1551/djvubind djvubind]'''. L'avantage c’est que ''djvubind'' crée directement le fichier DjVu final tout en réalisant l'OCR (à l'aide de Tesseract ou Cuneiform). Cependant ''djvubind'' utilise ''minidjvu'' qui à tendance à diminuer la qualité des textes surtout si la police d'origine est petite. Si il a trop d’erreur, d'OCR, utiliser la solution 1. Si ''djvubind'' ne génère pas d'alertes OCR alors le travail est terminé. Exemple de commande avec ''djvubind'' Ligne 97 ⟶ 100 : ===== ~~Images~~Ajouter enla ~~couleur/~~couche ~~niveau~~OCR ~~de gris ==~~=== À ce stade nous avons un fichier DjVu sans couche OCR et contenant des images en couleur ou niveau de gris (sauf si djvubind donne un résultat satisfaisant). Il faut à présent ajouter cet OCR à l'aide de '''Tesseract'''. ~~Afin de conserver la meilleur qualité passible, il faut utiliser [http://djvu.sourceforge.net/doc/man/c44.html C44 de DjVuLibre].~~ Pour cela récupérer et enregistrer le script Python depuis [[s:en:User:Inductiveload/Scripts/DJVU_OCR]] dans <code>/Auteur/Titre/</code>. ~~<!--Le plus simple est d'utiliser '''[http://jwilk.net/software/didjvu didjvu]''' en ligne de commande.~~ et lancer la commande : ~~Pour créer un fichier DjVu à partir du dossier ''out'' généré par ''Scan Taillor'' en couleur / niveau de gris la commande est la suivante :~~ ~~didjvu bundle ~/wikisource/auteur/livre/out/*.tif -o auteur-livre.djvu~~ Compter environ 1 heure pour 100 pages d'attente. ~~''didjvu'', peut dégrader le texte en le rendant légèrement flou. Si le résultat de l'OCR~~ ~~utilise en sous main la commande [http://djvu.sourceforge.net/doc/man/c44.html C44 de DjVuLibre].~~ == Étapes pour créer un DjVu sous Linux depuis un scanner == ~~Si les images sont bitonales (noir et blanc) il faut utiliser ''minidjvu'' à la place :~~ Note: pour le moment '''ocrodjvu''' ne fonctionne qu'avec les images bitonales (noir et blanc) ~~L'alternative est d'utiliser '''[http://gscan2pdf.sourceforge.net/ gscan2pdf]''' mais cela ne convient que pour les livres ne contenant que moins de 400-500 images.~~ ~~Au delà, ''gscan2pdf'' se fige lors de l'importation des images.-->~~ ==== Références ====

Miniwark