Utilisateur:SyB~Anicium/Tutoriel DjVu/3

Objectifs : d’une part, optimiser l’affichage ultérieur du fac-similé dans le mode Édition d’une page sur Wikisource ; d’autre part, alléger encore un peu le fichier final ; enfin, rétablir certaines images, en particulier lorsqu’elles sont penchées.


Préparation : téléchargez et installez le logiciel ScanTailor (disponible ici).


Réalisation :

  • Lancement : Au lancement de ScanTailor, vous devez créer un « nouveau projet », et le logiciel vous demande alors de choisir un « répertoire d’entrée » : indiquez-lui celui où sont stockés vos fichiers JPG ou TIFF de l’étape précédente ; ceci fait, le logiciel ajoute automatiquement un répertoire de sortie intitulé « out », à l’intérieur du répertoire que vous avez sélectionné. Le logiciel ajoute également la liste des fichiers faisant partie du projet. Cliquez sur OK.
  • Puis une fenêtre s’affiche, qui vous demande de fixer les DPI. Dans l’onglet « Need fixing », sélectionnez « All pages », puis dans le menu déroulant « Personnaliser », choisissez 600x600. Cliquez sur Appliquer, puis OK.
  • ScanTailor va procéder en 6 étapes au cours desquelles vous avez le contrôle sur à peu près tout. À chacune de ces étapes, vous choisirez les options souhaitées, puis vous indiquerez la cible ( « Appliquer à… »Toutes les pages, Cette page seulement, etc.), enfin vous les validez en cliquant sur le triangle gris de l’étape. Sans cela, les modifications ne sont pas appliquées.
  1. (facultatif) Fixer l’orientation : vous pouvez faire tourner certaines pages lorsque c’est nécessaire.
  2. (facultatif) Scinder les pages : utile seulement si le livre a été scanné à plat 2 pages par 2 pages.
  3. (facultatif) Redresser : cela peut nous intéresser, par exemple pour le Petit Livre qui présente des scans penchés tantôt dans un sens tantôt dans l’autre. Pour éviter d’avoir à le faire page par page, réglez le redressement sur une page « moyenne ». Puis sélectionnez une page sur 2 : pour ce faire, cliquez sur les miniatures à droite tout en maintenant enfoncée CTRL. Ensuite, cliquez sur « Appliquez à… » et choisissez « Toutes les pages sélectionnées ». Abracadabra, vous pouvez procéder de la même manière pour toutes les pages laissées de côté, que vous redresserez différemment (je parie qu’il y en a une sur deux). Parfois le réglage auto du logiciel est excellent, parfois non, cela dépend de la courbure des pages scannées… je vous laisse expérimenter. Une fois chaque image redressée manuellement ou automatiquement, ou par lot, cliquez sur le triangle gris de l’étape pour valider.
  4. Sélectionner le contenu : (un autre tour de magie) très souvent vous n’avez rien à faire car ScanTailor repère les zones de texte qui serviront à l’étape suivante. Néanmoins, le logiciel peut se planter et ne pas voir les textes en marge : surveillez-le, page par page s’il le faut.
  5. Définir les marges : en déplaçant les bordures, vous parviendrez à ajouter une petite marge autour du contenu — il ne s’agit pas de coller les paragraphes à la bordure de l’image, cela risque de gêner la lecture. Mais vous pouvez souvent supprimer des zones autour du contenu[1] : seul le contenu intégré aux cadres continus sera conservé. Ce qui est entre le cadre continu et le cadre extérieur en pointillé sera découpé ! Cette mesure est appliquée à toutes les pages.
  6. Sortie : cette dernière étape permet de fixer les DPI de sortie (600 pour garder le maximum de qualité, 300 pour le minimum), à vous de choisir et de l’appliquer à toutes les pages. Ensuite vous devez indiquer quel profil sera appliqué au contenu : couleur/niveaux de gris, mixte ou noir et blanc. Attention, même si le noir et blanc réduit considérablement la taille des fichiers de sortie, il réduit aussi la qualité des pages et les possibilités de lecture ou reconnaissance des caractères. Mixte permet d’appliquer noir et blanc au texte, et couleurs/niveaux de gris aux images détectées par ScanTailor. Ce choix est à adapter en fonction des scans d’origine et des objectifs poursuivis[2]. Selon mon expérience, voici un juste milieu : 300 DPI en noir et blanc et « couleurs/niveaux de gris » sur certaines pages illustrées.


Résultat : vous avez désormais dans le dossier « Out » l’ensemble des images traitées. Si tout s’est bien déroulé, vous les avez redressées, découpées, et les voilà ressorties avec une lisibilité supérieure ET en ayant perdu du poids !


  1. Sur Wikisource, vous aurez remarqué que des marges trop grandes obligent à zoomer à chaque nouvelle page pour n’avoir que le texte, et rien que le texte, votre Honneur.
  2. Par exemple, pour notre Petit Livre, une sortie en niveaux de gris 600 DPI donne une taille totale de 18,4 Mo. Ce n’est pas nécessaire mais c’est pourtant moitié moins par rapport aux TIFF d’origine ! Une sortie en niveaux de gris 400 DPI donnera un total de 8,74 Mo, mais c’est l’extrême limite pour permettre une bonne lecture/OCRisation ultérieurement. Là aussi, c’est à vous de doser selon le document.