Wikisource:Gallia Christiana
GALLIA CHRISTIANA
Constat
modifierCe vieux monument de l’érudition bénédictine consacré à l’histoire des diocèses de France et à leurs dignitaires, rédigé en latin et plusieurs fois remanié, complété, voire traduit (La France pontificale de H. Fisquet), conserve, malgré toutes ses lacunes — erreurs manifestes, choix délibérés ou état des connaissances d’alors — un intérêt pour l’historien(ne), spécialement pour les médiévistes.
Cet intérêt se manifeste en particulier dans les Instrumenta, pièces justificatives insérées en fin de volume, et dont les originaux transcrits aux XVIIe et XVIIIe siècles ont pu se perdre ou être détruits. Nombre d’ouvrages historiques contemporains continuent ainsi de mentionner tel ou tel renseignement trouvé dans la Gallia Christiana, quelles que soient ses faiblesses (voir ici). Aussi une édition numérique peut-elle épargner bien des efforts à celui ou celle qui remonte à la source d’une note de bas de page, même et surtout si l’objectif est de retrouver l’origine d’une erreur répétée par tous.
Aucune édition numérique (au sens du texte intégral doté d’une navigation pratique) n’existant, il est dès lors possible d'y remédier via les outils proposés par Wikisource et surtout par son homologue de langue latine, Vicifons.
La démarche générale
modifier- Réalisation de fac-similés lisibles et renfermant une couche texte de la meilleure qualité possible.
- Création de pages d'Index sur Vicifons et éventuellement sur Wikisource (avec l’accord préalable de la communauté francophone, s’agissant d’une page de renvoi vers Vicifons pour en faciliter l’accès).
- Réalisation fine du plan de chaque volume et de la navigation entre les sections (voir le Tome 1).
- Correction sur Vicifons en suivant un minimum de règles — les plus simples possibles pour permettre à tout(e) contributeur/trice occasionnel(le) d’y participer.
Participant(e)s (tout le monde est bienvenu !)
modifier- SyB~Anicium
- Laurent Jerry
- Hsarrazin et Tpt (à leur corps défendant ?) : sans leur aide technique, ce projet affronterait mille funestes périls !
- Utilisateur:Thucydide_2000
- Maxime
État du projet, livre par livre
modifierTome | Année | État | Liens |
---|---|---|---|
1 | 1715 | Fac-similé ok, prêt pour correction | Index Vicifons — Index Wikisource |
2 | 1720 | Fac-similé ok, prêt pour correction | Index Vicifons — Index Wikisource |
3 | 1725 | Fac-similé ok, prêt pour correction | Index Vicifons — Index Wikisource |
4 | 1728 | Fac-similé à remplacer | scan HathiTrust à vérifier, retraiter et transformer |
5 | 1731 | Fac-similé à remplacer | scan HathiTrust à vérifier, retraiter et transformer |
6 | 1739 | Fac-similé à remplacer | scan HathiTrust à vérifier, retraiter et transformer |
7 | 1744 | Fac-similé à remplacer | scan HathiTrust à vérifier, retraiter et transformer |
8 | 1744 | Fac-similé à remplacer | scan HathiTrust à vérifier, retraiter et transformer |
9 | 1751 | Fac-similé à remplacer | scan HathiTrust à vérifier, retraiter et transformer |
10 | 1751 | Fac-similé à remplacer | scan HathiTrust à vérifier, retraiter et transformer |
11 | 1759 | Fac-similé à remplacer | scan HathiTrust à vérifier, retraiter et transformer |
12 | 1770 | Fac-similé à remplacer | scan HathiTrust à vérifier, retraiter et transformer |
13 | 1785 | Fac-similé à remplacer | scan HathiTrust à vérifier, retraiter et transformer |
14 | 1856 | Fac-similé à remplacer | scan HathiTrust à vérifier, retraiter et transformer |
15 | 1860 | Fac-similé à remplacer | scan HathiTrust à vérifier, retraiter et transformer |
16 | 1865 | Fac-similé à remplacer | scan HathiTrust à vérifier, retraiter et transformer |
Méthode employée pour la conception des fac-similés
modifier- 1 — Récupération d’images correctes.
Les exemplaires numérisés par Google auprès de la Northwestern University, et mis à disposition sur le site HathiTrust, sont de loin les meilleurs. La récupération des scans est cependant manuelle, page par page, au format PDF. Ceci permet d’extraire une image .TIFF ou .JPEG de grande qualité (grâce au logiciel TTRPDFtoJPG).
- 2 — Rectification des images et vérification de l’intégrité du volume
Les images sont vérifiées pour contrôler l’intégrité du volume ; il est fréquent de trouver des images en double, ou des manques, qu’il faut combler grâce à un autre scan. En utilisant le logiciel ScanTailor, les images extraites des PDF peuvent ensuite être rectifiées : correction de l’alignement, sélection du contenu (semi-automatique : le logiciel est parfois expéditif) et suppression des marges, puis enregistrement au format .TIFF (résolution 600ppp).
- 3 — OCR (Phase 1) : identification des caractères délicats et complément du gabarit des caractères
Un logiciel tel que FineReader a besoin d’être informé à l’avance des caractères anciens qu’il va rencontrer (s long, æ, œ, etc.) et des subtilités typographiques de l’ouvrage. La réalisation d’un « gabarit utilisateur » au début de cette phase permet de réduire considérablement les erreurs de reconnaissance. Cet apprentissage est cependant long et délicat ; un déséquilibre des caractères identifiés va pousser FineReader à transformer par exemple tous les « e » en « c ». Il faut donc réaliser l’apprentissage sur une page représentative des difficultés (italique, ligatures nombreuses), puis tester ce gabarit sur une autre page, amender le gabarit en supprimant des formes qui ont trompé le logiciel… À cette étape les s longs sont encore reproduits. Il ne faut pas être trop gourmand et tenter d’identifier tous les caractères de façon précise ; certaines erreurs fréquentes de FineReader seront justement très faciles à corriger à l’étape 3, par des « Rechercher / Remplacer ».
- 4 — OCR (Phase 2) : sélection des zones de textes (colonnes)
Si la détection automatique des zones de texte est relativement efficace sur des ouvrages modernes ne présentant pas d’originalité de mise en page, la chose est différente pour des ouvrages du XVIIIe siècle. La Gallia Christiana trompe constamment le logiciel, en raison de sa mise en page sur deux colonnes, parfois interrompue par un titre en milieu de page. Surtout, l’existence de lettres entre les colonnes empêche le logiciel de détecter la séparation. Une océrisation sans sélection des zones de texte conduit à un mélange des lignes entre les deux colonnes, et un désordre complet qui rendra laborieuse toute correction (voir les fac-similés successifs réalisés pour le Tome 2). FineReader permet de sélectionner manuellement les zones de texte, puis d’enregistrer un gabarit (« modèle de zone » ) : ce modèle de zone pourra être appliqué à toute une série de pages présentant la même structure. Cependant, il faut repasser manuellement ces pages pour rectifier les bordures de colonnes (exercice long mais indispensable pour la qualité du texte final). Un choix radical doit aussi être fait pour les notes marginales : compte tenu de leur difficulté de reconnaissance (petits caractères italiques, petites majuscules, etc.) et constatant que leur présence perturbe la reconnaissance du corps de texte (et des césures de mots en particulier), il est préférable de les exclure aussi parfaitement que possible des zones de texte.
- 5 — OCR (Phase 3) : océrisation et correction des erreurs les plus courantes
Notamment remplacement des ſ par des s ; rectification de la ponctuation etc.
- 6 — Export au format .djvu
Paramètres retenus pour un bon rapport qualité/poids : 300ppp, 70% de qualité ; couche unique.
- 7 — Téléversement
Chronologie
modifier- 2021, octobre : Tome 1 --- catalogues à valider : Bayonne ; pièces justificatives à valider : Castres, Dax, Lectour, Oloron, Lescar, Bayonne ; annexes à valider : chrolologia regum ; Tome 2 --- sommaire à valider
- 2021, septembre : diocèse d'Albi (catalogues et pièces justificatives), diocèse de Castres et ancien diocèse métropolitain d'Eauze à valider.
- 2019, 27 mars : les deux premiers tomes sont prêts à la correction.
- 2019, 19 février : téléversement de la version finale du fac-similé pour le Tome 1 (océrisation suivant la méthode développée sur cette page)
- 2019, 10 février : création de cette page de projet ; téléversement d’un nouveau fac-similé du Tome 2 (suppression décidée des S longs pour rendre la correction plus facile à tous).
- 2019, début février : améliorations de présentation des index (Tomes 1 et 2) ; copie de l’index du Tome 1 sur Wikisource, création de la page Auteur pour Denis de Sainte-Marthe.
- 2018, 15 décembre : téléversement d’une nouvelle version du Tome 2, avec une couche texte qui respecte les colonnes.
- 2018, de février à mai : réalisation de l’index du Tome 2 ; création des chapitres ; correction d’une vingtaine de pages (préface du Tome 1 + Ecclesia Aniciensis dans le Tome 2) pour éprouver les modèles à utiliser et identifier les problèmes d'océrisation.
- 2018, fin février : téléversement d’un fac-similé de meilleure qualité pour le Tome 2 sur Commons.
- 2018, février : échanges faisant suite à la discussion du Scriptorium ; création des chapitres du Tome 1 sur Vicifons ; améliorations de l’index ; téléversement des cartes présentes dans le Tome 1 (versions haute définition proposées par la BNF).
- 2018, 1er février : réalisation d’une page d'Index pour le Tome 1 sur Vicifons.
- 2018, 31 janvier : téléversement d’un fac-similé de meilleure qualité pour le Tome 1, des expérimentations suivent.
- 2018, 23 janvier : Laurent Jerry lance une discussion sur le Scriptorium (question technique).
- Fin 2017 : Laurent Jerry téléverse la série complète sur Commons.
Tous les projets
modifier- 1. Mise en ordre des catégories
- 2. Éditions bilingues
- 3. Traductions
- 4. Documents remarquables
- 5. Numérisation
- 6. Prix littéraires
- 7. Promouvoir Wikisource
- 8. Noter la qualité
- 9. Lier entrées de dictionnaires
- 10. Chronologie
- 11. Manuel
- 12. Pourquoi contribuer ?
- 13. Macro de mise en forme
- 14. Publication papier
- 15. Wikisource visuel
- 16. Wikisource sonore
- 17. Recherche dans Wikisource
- 18. Imprimer Wikisource
- 19. Collationner textes et fac-similés
- 20. Molière
- 21. Philosophie
- 22. Des formats variés pour Wikisource
- 23. Wikisource sur CD
- 24. Dictionnaire bilingue wikisourcien-français
- 25. La Fontaine
- 26. Portail des enfants
- 27. Texte intégral
- 28. Tutoriels
- 29. Portails
- 30. Dictionnaires Encyclopédies
- 31. Baliser Wikisource
- 32. Versions optionnelles
- 33. Dialogue avec la BnF
- 34. Lettres de Madame Roland
- 35. Constitutions
- 36. Accueil Wikisource multilingue
- 37. Coquilles et scannilles
- 38. Colorer les langues
- 39. Présenter les Nouveautés de Wikisource
- 40. Accueil sur Wikisource
- 41. Recherche intelligente
- 42. Fac-similés
- 43. Monuments historiques
- 44. Les classiques des sciences sociales
- 45. Partenariats
- 46. Organisation et suivi
- 47. Dialogue avec les développeurs
- 48. Anthologies et voies d'accès
- 49. Partitions
- 50. Libre accès
- 51. Outils Javascript et Wikisource
- 52. Wikisource:Accueil/100wikijours
- 53. Baccalauréat & Concours d'entrée aux grandes écoles
- 54. Prix Nobel de littérature
- 55. Autrices
- 56. Gallia Christiana
- 57. Notre-Dame de Paris
- 58. Science
- 59. Projets pédagogiques
- 60. « Les 150 ans de la Commune » : mois de contributions
- 61. Corée
- 62. Japon
- 63. Lorraine
- 64. Dicothèque
- 65. L'école d'Ancien régime