Bonne nouvelle : j'ai fait un premier test assez concluant : https://wikisource.org/wiki/Page:BnF_-_Catalogue_de_l%27histoire_de_l%27Am%C3%A9rique,_V1,_1903.djvu/389
Comme tu le constateras, j'ai pour ce faire réimporté le volume 1 sur la version multilingue. Ça tombe bien, c'est le cas de ce livre ! Cela étant, j’ai surtout fait cela car sur cette version, via les gadgets, il est possible d’activer un autre système d'OCR, confère la documentation indiquée précédemment : https://meta.wikimedia.org/wiki/Community_Tech/OCR_Improvements j'ai activé et utilisé l'OCR Google.
Il reste à faire l'import par indexation des quatre autres volumes, si tu veux bien t'en occuper.
L’OCR fonctionne pas mal du tout sur mon test, mais évidemment il ne gère pas du tout la mise en page, comme le fait qu’elles soient sur deux colonnes. Cela dit, ça pourrait être largement pire : l'OCR prend bien en compte qu'il y a deux colonnes, et met le wikitexte en séquence correcte vis-à-vis de cette sous-pagination. C’est seulement l’aspect rendu, qui se fera par utilisation de modèles (templates) qui manque. Mais ça n’est pas le boulot de l’OCR. Pour le moment, je propose d’ignorer la mise en forme du résultat et de se concentrer sur la correction de l’OCR pour le moment. La mise en forme pourra être appliqué dans un second temps, avec probable possibilité d'automatiser très largement cette étape.
En résumé, ce que suggère comme prochaines actions :
- terminer l'indexation des 4 autres volumes sur la wikisource internationale (cela dit terminer l'OCR du premier d'abord ne serait pas plus mal)
- activer le gadget Google OCR sur le même site
- trouver des recrues pour la relecture et coordonner leurs actions (qui relie quio) après leur avoir fournie les infos sur comment mettre en place leur session avec le Google OCR
N'hésite pas à me contacter par téléphone quand tu as des besoin de ce genre. Je peux mettre parfois fort longtemps à traiter mes notifications wikimédiennes alors que je suis toujours partant pour aider ce type de démarche.