Contenu supprimé Contenu ajouté
en cours de rédaction
Ligne 15 :
 
==== Importer depuis Gallica ====
 
# Créer un dossier pour le livre à télécharger. Par exemple <code>/Auteur/Titre</code>
# modifier le script bash suivant pour importer les images en haute résolution depuis Gallica.
# Enregistrer le script dans le dossier crée. Par exemple <code>/Auteur/Livre/Gallica.sh</code>
# Lancer le script en ligne de commande depuis <code>/Auteur/Titre</code>
 
##!/bin/bash
#lastpage="dernière page à télécharger"
lastpage="608"
for i in $(seq 1 $lastpage); do
#p="http://gallica.bnf.fr/ark:/12148/identifiant du livre/f$i.highres"
p="http://gallica.bnf.fr/ark:/12148/bpt6k5510856m/f$i.highres"
# changer .png en .jpg pour les images en couleur
wget -U DummyBrowser/0.1 $p -O page_`printf %04d $i`.png;
done
 
Il faut modifier : le nombre de page et l'ID Gallica et éventuellement l’extension des images.
 
Script d'origine : [[Wikisource:Gallica#Utilisation_d’un_script]]
 
La plupart des images de Gallica sont au format PNG, mais certains livres en couleur, voir certaines pages uniquement sont en JPEG. Après l'import il convient donc de vérifier si les images on bien toutes un aperçu dans le gestionnaire de fichier. Si les images n'ont pas d’aperçu il est probable que :
# l'image ne se soit pas téléchargée (récupérer alors les images manquantes)
# les images sont en format JPG (changer l’extension)
 
Une fois le script lancé vous devez avoir une série d'images du genre page_000X.png dans votre dossier <code>/Auteur/Titre</code>.
 
==== Améliorer la qualité des numérisations ====
 
Afin, de supprimer les artefacts de numérisation et en particulier, les bords de livre, etles rotations et les ''watermarks'' de Ggallica, il est préférable de faire un traitement des images obtenues à l'aide de '''[http://scantailor.org/ Scan Tailor]'''.
 
# Lors de l'import si les dpisDPIs ne correspondent pas choisir 600x600 pour toutes les tailles d'images
# vérifier minutieusement les sélection de contenu pour toutes les pages (sélection trop grandes ou contenu manquant)
# mettre en en place les marges en essayant d'obtenir une marge à peu près équivalente au livre source
# centrer les pages, sauf en débuts et fin de chapitre (souvent alignés en bas et en haut respectivement dans les livres).
# ajouter éventuellement des masques blancs
# éviter le ''dewarping'' au maximum, sauf pour les pages très déformées (et uniquement en manuel). Cela d'autant plus que la police est petite (OCR souvent plus difficile)
 
Pour la sortie finale choisir :
Ligne 33 ⟶ 58 :
# ne pas activer "réglage de l'éclairage"
 
Une fois le traitement terminé ''Scan Taillor'' crée autant de pagesnouvelles images qu'au départ au format TIFF dans un sous-dossier ''<code>/Auteur/Titre/out''</code>.
 
==== Créer le fichier DjVu ====
 
 
 
===== Images en couleur/ niveau de gris =====