Wikisource:Gallia Christiana

Accueil Projets > Gallia Christiana
Explication des icônes : En projet ; Commencé ; En cours ; Avancé ; Terminé
Idées et projets
Idées et projets
Projet no 56 — Gallia Christiana

GALLIA CHRISTIANA

Objectif : Projet interwiki (Wikisource & Vicifons) dont l’objectif est de proposer une réédition numérique des ouvrages constituant la Gallia Christiana, dans son édition en 16 volumes (1715-1865). Cette page de projet est destinée à réunir les contributeurs/trices intéressé(e)s, documenter les démarches de réédition et les modèles utiles, en suivre l’évolution et les questionnements. L’espace de Discussion de cette page peut ainsi servir de lieu d’échanges.

Constat modifier

Ce vieux monument de l’érudition bénédictine consacré à l’histoire des diocèses de France et à leurs dignitaires, rédigé en latin et plusieurs fois remanié, complété, voire traduit (La France pontificale de H. Fisquet), conserve, malgré toutes ses lacunes — erreurs manifestes, choix délibérés ou état des connaissances d’alors — un intérêt pour l’historien(ne), spécialement pour les médiévistes.

Cet intérêt se manifeste en particulier dans les Instrumenta, pièces justificatives insérées en fin de volume, et dont les originaux transcrits aux XVIIe et XVIIIe siècles ont pu se perdre ou être détruits. Nombre d’ouvrages historiques contemporains continuent ainsi de mentionner tel ou tel renseignement trouvé dans la Gallia Christiana, quelles que soient ses faiblesses (voir ici). Aussi une édition numérique peut-elle épargner bien des efforts à celui ou celle qui remonte à la source d’une note de bas de page, même et surtout si l’objectif est de retrouver l’origine d’une erreur répétée par tous.

Aucune édition numérique (au sens du texte intégral doté d’une navigation pratique) n’existant, il est dès lors possible d'y remédier via les outils proposés par Wikisource et surtout par son homologue de langue latine, Vicifons.

La démarche générale modifier

  • Réalisation de fac-similés lisibles et renfermant une couche texte de la meilleure qualité possible.
  • Création de pages d'Index sur Vicifons et éventuellement sur Wikisource (avec l’accord préalable de la communauté francophone, s’agissant d’une page de renvoi vers Vicifons pour en faciliter l’accès).
  • Réalisation fine du plan de chaque volume et de la navigation entre les sections (voir le Tome 1).
  • Correction sur Vicifons en suivant un minimum de règles — les plus simples possibles pour permettre à tout(e) contributeur/trice occasionnel(le) d’y participer.

Participant(e)s (tout le monde est bienvenu !) modifier

État du projet, livre par livre modifier

Tome Année État Liens
1 1715   Fac-similé ok, prêt pour correction Index VicifonsIndex Wikisource
2 1720   Fac-similé ok, prêt pour correction Index VicifonsIndex Wikisource
3 1725   Fac-similé ok, prêt pour correction Index VicifonsIndex Wikisource
4 1728   Fac-similé à remplacer scan HathiTrust à vérifier, retraiter et transformer
5 1731   Fac-similé à remplacer scan HathiTrust à vérifier, retraiter et transformer
6 1739   Fac-similé à remplacer scan HathiTrust à vérifier, retraiter et transformer
7 1744   Fac-similé à remplacer scan HathiTrust à vérifier, retraiter et transformer
8 1744   Fac-similé à remplacer scan HathiTrust à vérifier, retraiter et transformer
9 1751   Fac-similé à remplacer scan HathiTrust à vérifier, retraiter et transformer
10 1751   Fac-similé à remplacer scan HathiTrust à vérifier, retraiter et transformer
11 1759   Fac-similé à remplacer scan HathiTrust à vérifier, retraiter et transformer
12 1770   Fac-similé à remplacer scan HathiTrust à vérifier, retraiter et transformer
13 1785   Fac-similé à remplacer scan HathiTrust à vérifier, retraiter et transformer
14 1856   Fac-similé à remplacer scan HathiTrust à vérifier, retraiter et transformer
15 1860   Fac-similé à remplacer scan HathiTrust à vérifier, retraiter et transformer
16 1865   Fac-similé à remplacer scan HathiTrust à vérifier, retraiter et transformer

Méthode employée pour la conception des fac-similés modifier

  • 1 — Récupération d’images correctes.

Les exemplaires numérisés par Google auprès de la Northwestern University, et mis à disposition sur le site HathiTrust, sont de loin les meilleurs. La récupération des scans est cependant manuelle, page par page, au format PDF. Ceci permet d’extraire une image .TIFF ou .JPEG de grande qualité (grâce au logiciel TTRPDFtoJPG).

  • 2 — Rectification des images et vérification de l’intégrité du volume

Les images sont vérifiées pour contrôler l’intégrité du volume ; il est fréquent de trouver des images en double, ou des manques, qu’il faut combler grâce à un autre scan. En utilisant le logiciel ScanTailor, les images extraites des PDF peuvent ensuite être rectifiées : correction de l’alignement, sélection du contenu (semi-automatique : le logiciel est parfois expéditif) et suppression des marges, puis enregistrement au format .TIFF (résolution 600ppp).

  • 3 — OCR (Phase 1) : identification des caractères délicats et complément du gabarit des caractères

Un logiciel tel que FineReader a besoin d’être informé à l’avance des caractères anciens qu’il va rencontrer (s long, æ, œ, etc.) et des subtilités typographiques de l’ouvrage. La réalisation d’un « gabarit utilisateur » au début de cette phase permet de réduire considérablement les erreurs de reconnaissance. Cet apprentissage est cependant long et délicat ; un déséquilibre des caractères identifiés va pousser FineReader à transformer par exemple tous les « e » en « c ». Il faut donc réaliser l’apprentissage sur une page représentative des difficultés (italique, ligatures nombreuses), puis tester ce gabarit sur une autre page, amender le gabarit en supprimant des formes qui ont trompé le logiciel… À cette étape les s longs sont encore reproduits. Il ne faut pas être trop gourmand et tenter d’identifier tous les caractères de façon précise ; certaines erreurs fréquentes de FineReader seront justement très faciles à corriger à l’étape 3, par des « Rechercher / Remplacer ».

  • 4 — OCR (Phase 2) : sélection des zones de textes (colonnes)

Si la détection automatique des zones de texte est relativement efficace sur des ouvrages modernes ne présentant pas d’originalité de mise en page, la chose est différente pour des ouvrages du XVIIIe siècle. La Gallia Christiana trompe constamment le logiciel, en raison de sa mise en page sur deux colonnes, parfois interrompue par un titre en milieu de page. Surtout, l’existence de lettres entre les colonnes empêche le logiciel de détecter la séparation. Une océrisation sans sélection des zones de texte conduit à un mélange des lignes entre les deux colonnes, et un désordre complet qui rendra laborieuse toute correction (voir les fac-similés successifs réalisés pour le Tome 2). FineReader permet de sélectionner manuellement les zones de texte, puis d’enregistrer un gabarit (« modèle de zone » ) : ce modèle de zone pourra être appliqué à toute une série de pages présentant la même structure. Cependant, il faut repasser manuellement ces pages pour rectifier les bordures de colonnes (exercice long mais indispensable pour la qualité du texte final). Un choix radical doit aussi être fait pour les notes marginales : compte tenu de leur difficulté de reconnaissance (petits caractères italiques, petites majuscules, etc.) et constatant que leur présence perturbe la reconnaissance du corps de texte (et des césures de mots en particulier), il est préférable de les exclure aussi parfaitement que possible des zones de texte.

  • 5 — OCR (Phase 3) : océrisation et correction des erreurs les plus courantes

Notamment remplacement des ſ par des s ; rectification de la ponctuation etc.

  • 6 — Export au format .djvu

Paramètres retenus pour un bon rapport qualité/poids : 300ppp, 70% de qualité ; couche unique.

  • 7 — Téléversement

Chronologie modifier

Tous les projets modifier

Remarque : avancement non mis à jour.