Utilisateur:SyB~Anicium/Tutoriel DjVu/2

Objectif : repartir des scans individuels, car les logiciels des étapes suivantes travaillent à partir de fichiers image. Ces petits fichiers seront de toute façon plus souples à traiter qu’un seul fichier compilé et volumineux.

Préparation : Si vous utilisez Windows 7 : Téléchargez un logiciel qui porte le doux nom de TTRPDFtoJPG : Il est gratuit et disponible à cette adresse.

Important : ce logiciel ne dispose pas d’installeur ; vous devez extraire tout le dossier du fichier .zip à un emplacement accessible (comme le Bureau), puis exécuter le programme en cliquant sur l’icône « ttrpdftojpg3.jar »

Mise à jour 2022 : Si vous utilisez Windows 10, il existe une application gratuite qui rend le même service : Any PDF to JPG.

Réalisation dans TTRPDFtoJPG :

Menu Fichier → Ajouter des PDF → Sélectionnez le fichier téléchargé/travaillé précédemment.
Dans les options du volet de droite : si vous avez plusieurs gigaoctets disponibles, je recommande de choisir JPG avec une « magnification » de 10 ; pour la destination d’enregistrement, cocher « Enregistrer dans le même dossier » (ou créez au préalable un sous-dossier, c’est pratique)^[1].
« Convertir »

Résultat de l’étape : Vous disposez à présent d’autant de fichiers images (JPG) qu’il y avait de pages dans le PDF. Si ce n’est pas déjà fait, je recommande de ranger ces images dans un sous-dossier ad hoc : « [JPG-Découpé] – Titre du livre ».

Étape BONUS : si vous ne l’avez pas fait au cours de l’étape 1, c’est le moment de vérifier que toutes les pages sont là, dans le bon ordre, sans redondance ou page inutile. Cette démarche, loin de vous faire perdre du temps, vous en fera gagner par la suite : vous n'aurez pas besoin de modifier la pagination automatique dans le pagelist de la page d’Index, ou d’ajouter laborieusement des pages au DjVu final dans lequel vous aurez repéré des pages manquantes. Récupérez ces pages cruciales par tous les moyens sur d’autres exemplaires numérisés (HathiTrust, Google, Gallica), en scannant l’ouvrage en question que vous aurez été chercher dans les ruines de l’Atlantide ou à la bibliothèque du quartier, etc. Il suffira ensuite d’intercaler l’image en lui donnant un nom correct. Par exemple, s’il manquait une page entre les images 00189.jpg et 00190.jpg, appelez-là 00189BIS.jpg, copiez-la parmi les autres et le tour est joué, elle prendra la place souhaitée. Et croyez-moi, c’est infiniment plus simple à ce stade qu’une fois le bouquin téléversé et l’erreur constatée

.

↑ Vous pouvez aussi opter pour le TIF dans le menu déroulant, mais cela réserve des surprises : ce logiciel m’a parfois ressorti des TIF (en théorie sans perte) complètement saccagés… Je reste souvent sur du JPG, par prudence. En revanche, sur des scans Google venant de HathiTrust, un JPG haute qualité gardait trop d’informations cachées et provoquait un crash de mon logiciel d’OCR… Les formats sont des mondes mystérieux…

[1] Vous pouvez aussi opter pour le TIF dans le menu déroulant, mais cela réserve des surprises : ce logiciel m’a parfois ressorti des TIF (en théorie sans perte) complètement saccagés… Je reste souvent sur du JPG, par prudence. En revanche, sur des scans Google venant de HathiTrust, un JPG haute qualité gardait trop d’informations cachées et provoquait un crash de mon logiciel d’OCR… Les formats sont des mondes mystérieux…

[1]