Wikisource:Gallia Christiana

Accueil

Projets

Gallia Christiana

Explication des icônes :

En projet ;

Commencé ;

En cours ;

Avancé ;

Terminé

Projet n^o 56 — Gallia Christiana

GALLIA CHRISTIANA

Objectif : Projet interwiki (Wikisource & Vicifons) dont l’objectif est de proposer une réédition numérique des ouvrages constituant la Gallia Christiana, dans son édition en 16 volumes (1715-1865). Cette page de projet est destinée à réunir les contributeurs/trices intéressé(e)s, documenter les démarches de réédition et les modèles utiles, en suivre l’évolution et les questionnements. L’espace de Discussion de cette page peut ainsi servir de lieu d’échanges.

Constat

Ce vieux monument de l’érudition bénédictine consacré à l’histoire des diocèses de France et à leurs dignitaires, rédigé en latin et plusieurs fois remanié, complété, voire traduit (La France pontificale de H. Fisquet), conserve, malgré toutes ses lacunes — erreurs manifestes, choix délibérés ou état des connaissances d’alors — un intérêt pour l’historien(ne), spécialement pour les médiévistes.

Cet intérêt se manifeste en particulier dans les Instrumenta, pièces justificatives insérées en fin de volume, et dont les originaux transcrits aux XVII^e et XVIII^e siècles ont pu se perdre ou être détruits. Nombre d’ouvrages historiques contemporains continuent ainsi de mentionner tel ou tel renseignement trouvé dans la Gallia Christiana, quelles que soient ses faiblesses (voir ici). Aussi une édition numérique peut-elle épargner bien des efforts à celui ou celle qui remonte à la source d’une note de bas de page, même et surtout si l’objectif est de retrouver l’origine d’une erreur répétée par tous.

Aucune édition numérique (au sens du texte intégral doté d’une navigation pratique) n’existant, il est dès lors possible d'y remédier via les outils proposés par Wikisource et surtout par son homologue de langue latine, Vicifons.

La démarche générale

Réalisation de fac-similés lisibles et renfermant une couche texte de la meilleure qualité possible.
Création de pages d'Index sur Vicifons et éventuellement sur Wikisource (avec l’accord préalable de la communauté francophone, s’agissant d’une page de renvoi vers Vicifons pour en faciliter l’accès).
Réalisation fine du plan de chaque volume et de la navigation entre les sections (voir le Tome 1).
Correction sur Vicifons en suivant un minimum de règles — les plus simples possibles pour permettre à tout(e) contributeur/trice occasionnel(le) d’y participer.

Participant(e)s (tout le monde est bienvenu !)

SyB~Anicium
Laurent Jerry
Hsarrazin et Tpt (à leur corps défendant ?) : sans leur aide technique, ce projet affronterait mille funestes périls !
Utilisateur:Thucydide_2000
Maxime

État du projet, livre par livre

Tome	Année	État	Liens
1	1715	Fac-similé ok, prêt pour correction	Index Vicifons — Index Wikisource
2	1720	Fac-similé ok, prêt pour correction	Index Vicifons — Index Wikisource
3	1725	Fac-similé ok, prêt pour correction	Index Vicifons — Index Wikisource
4	1728	Fac-similé à remplacer	scan HathiTrust à vérifier, retraiter et transformer
5	1731	Fac-similé à remplacer	scan HathiTrust à vérifier, retraiter et transformer
6	1739	Fac-similé à remplacer	scan HathiTrust à vérifier, retraiter et transformer
7	1744	Fac-similé à remplacer	scan HathiTrust à vérifier, retraiter et transformer
8	1744	Fac-similé à remplacer	scan HathiTrust à vérifier, retraiter et transformer
9	1751	Fac-similé à remplacer	scan HathiTrust à vérifier, retraiter et transformer
10	1751	Fac-similé à remplacer	scan HathiTrust à vérifier, retraiter et transformer
11	1759	Fac-similé à remplacer	scan HathiTrust à vérifier, retraiter et transformer
12	1770	Fac-similé à remplacer	scan HathiTrust à vérifier, retraiter et transformer
13	1785	Fac-similé à remplacer	scan HathiTrust à vérifier, retraiter et transformer
14	1856	Fac-similé à remplacer	scan HathiTrust à vérifier, retraiter et transformer
15	1860	Fac-similé à remplacer	scan HathiTrust à vérifier, retraiter et transformer
16	1865	Fac-similé à remplacer	scan HathiTrust à vérifier, retraiter et transformer

Méthode employée pour la conception des fac-similés

1 — Récupération d’images correctes.

Les exemplaires numérisés par Google auprès de la Northwestern University, et mis à disposition sur le site HathiTrust, sont de loin les meilleurs. La récupération des scans est cependant manuelle, page par page, au format PDF. Ceci permet d’extraire une image .TIFF ou .JPEG de grande qualité (grâce au logiciel TTRPDFtoJPG).

2 — Rectification des images et vérification de l’intégrité du volume

Les images sont vérifiées pour contrôler l’intégrité du volume ; il est fréquent de trouver des images en double, ou des manques, qu’il faut combler grâce à un autre scan. En utilisant le logiciel ScanTailor, les images extraites des PDF peuvent ensuite être rectifiées : correction de l’alignement, sélection du contenu (semi-automatique : le logiciel est parfois expéditif) et suppression des marges, puis enregistrement au format .TIFF (résolution 600ppp).

3 — OCR (Phase 1) : identification des caractères délicats et complément du gabarit des caractères

Un logiciel tel que FineReader a besoin d’être informé à l’avance des caractères anciens qu’il va rencontrer (s long, æ, œ, etc.) et des subtilités typographiques de l’ouvrage. La réalisation d’un « gabarit utilisateur » au début de cette phase permet de réduire considérablement les erreurs de reconnaissance. Cet apprentissage est cependant long et délicat ; un déséquilibre des caractères identifiés va pousser FineReader à transformer par exemple tous les « e » en « c ». Il faut donc réaliser l’apprentissage sur une page représentative des difficultés (italique, ligatures nombreuses), puis tester ce gabarit sur une autre page, amender le gabarit en supprimant des formes qui ont trompé le logiciel… À cette étape les s longs sont encore reproduits. Il ne faut pas être trop gourmand et tenter d’identifier tous les caractères de façon précise ; certaines erreurs fréquentes de FineReader seront justement très faciles à corriger à l’étape 3, par des « Rechercher / Remplacer ».

4 — OCR (Phase 2) : sélection des zones de textes (colonnes)

Si la détection automatique des zones de texte est relativement efficace sur des ouvrages modernes ne présentant pas d’originalité de mise en page, la chose est différente pour des ouvrages du XVIII^e siècle. La Gallia Christiana trompe constamment le logiciel, en raison de sa mise en page sur deux colonnes, parfois interrompue par un titre en milieu de page. Surtout, l’existence de lettres entre les colonnes empêche le logiciel de détecter la séparation. Une océrisation sans sélection des zones de texte conduit à un mélange des lignes entre les deux colonnes, et un désordre complet qui rendra laborieuse toute correction (voir les fac-similés successifs réalisés pour le Tome 2). FineReader permet de sélectionner manuellement les zones de texte, puis d’enregistrer un gabarit (« modèle de zone » ) : ce modèle de zone pourra être appliqué à toute une série de pages présentant la même structure. Cependant, il faut repasser manuellement ces pages pour rectifier les bordures de colonnes (exercice long mais indispensable pour la qualité du texte final). Un choix radical doit aussi être fait pour les notes marginales : compte tenu de leur difficulté de reconnaissance (petits caractères italiques, petites majuscules, etc.) et constatant que leur présence perturbe la reconnaissance du corps de texte (et des césures de mots en particulier), il est préférable de les exclure aussi parfaitement que possible des zones de texte.

5 — OCR (Phase 3) : océrisation et correction des erreurs les plus courantes

Notamment remplacement des ſ par des s ; rectification de la ponctuation etc.

6 — Export au format .djvu

Paramètres retenus pour un bon rapport qualité/poids : 300ppp, 70% de qualité ; couche unique.

7 — Téléversement

Chronologie

Chronologie du projet

2021, octobre : Tome 1 --- catalogues à valider : Bayonne ; pièces justificatives à valider : Castres, Dax, Lectour, Oloron, Lescar, Bayonne ; annexes à valider : chrolologia regum ; Tome 2 --- sommaire à valider
2021, septembre : diocèse d'Albi (catalogues et pièces justificatives), diocèse de Castres et ancien diocèse métropolitain d'Eauze à valider.
2019, 27 mars : les deux premiers tomes sont prêts à la correction.
2019, 19 février : téléversement de la version finale du fac-similé pour le Tome 1 (océrisation suivant la méthode développée sur cette page)
2019, 10 février : création de cette page de projet ; téléversement d’un nouveau fac-similé du Tome 2 (suppression décidée des S longs pour rendre la correction plus facile à tous).
2019, début février : améliorations de présentation des index (Tomes 1 et 2) ; copie de l’index du Tome 1 sur Wikisource, création de la page Auteur pour Denis de Sainte-Marthe.
2018, 15 décembre : téléversement d’une nouvelle version du Tome 2, avec une couche texte qui respecte les colonnes.
2018, de février à mai : réalisation de l’index du Tome 2 ; création des chapitres ; correction d’une vingtaine de pages (préface du Tome 1 + Ecclesia Aniciensis dans le Tome 2) pour éprouver les modèles à utiliser et identifier les problèmes d'océrisation.
2018, fin février : téléversement d’un fac-similé de meilleure qualité pour le Tome 2 sur Commons.
2018, février : échanges faisant suite à la discussion du Scriptorium ; création des chapitres du Tome 1 sur Vicifons ; améliorations de l’index ; téléversement des cartes présentes dans le Tome 1 (versions haute définition proposées par la BNF).
2018, 1^er février : réalisation d’une page d'Index pour le Tome 1 sur Vicifons.
2018, 31 janvier : téléversement d’un fac-similé de meilleure qualité pour le Tome 1, des expérimentations suivent.
2018, 23 janvier : Laurent Jerry lance une discussion sur le Scriptorium (question technique).
Fin 2017 : Laurent Jerry téléverse la série complète sur Commons.

Tous les projets

Wikisource:Projets

1. Mise en ordre des catégories
2. Éditions bilingues
3. Traductions
4. Documents remarquables
5. Numérisation
6. Prix littéraires
7. Promouvoir Wikisource
8. Noter la qualité
9. Lier entrées de dictionnaires
10. Chronologie
11. Manuel
12. Pourquoi contribuer ?
13. Macro de mise en forme
14. Publication papier
15. Wikisource visuel
16. Wikisource sonore
17. Recherche dans Wikisource
18. Imprimer Wikisource
19. Collationner textes et fac-similés
20. Molière
21. Philosophie
22. Des formats variés pour Wikisource
23. Wikisource sur CD
24. Dictionnaire bilingue wikisourcien-français
25. La Fontaine
26. Portail des enfants
27. Texte intégral
28. Tutoriels
29. Portails
30. Dictionnaires Encyclopédies
31. Baliser Wikisource
32. Versions optionnelles
33. Dialogue avec la BnF
34. Lettres de Madame Roland
35. Constitutions
36. Accueil Wikisource multilingue
37. Coquilles et scannilles
38. Colorer les langues
39. Présenter les Nouveautés de Wikisource
40. Accueil sur Wikisource
41. Recherche intelligente
42. Fac-similés
43. Monuments historiques
44. Les classiques des sciences sociales
45. Partenariats
46. Organisation et suivi
47. Dialogue avec les développeurs
48. Anthologies et voies d'accès
49. Partitions
50. Libre accès
51. Outils Javascript et Wikisource
52. Wikisource:Accueil/100wikijours
53. Baccalauréat & Concours d'entrée aux grandes écoles
54. Prix Nobel de littérature
55. Autrices
56. Gallia Christiana
57. Notre-Dame de Paris
58. Science
59. Projets pédagogiques
60. « Les 150 ans de la Commune » : mois de contributions
61. Corée
62. Japon
63. Lorraine
64. Dicothèque
65. L'école d'Ancien régime

Remarque : avancement non mis à jour.