Wikisource:Partenariats/Bibliothèque nationale de France/Discussions
1. Proposer une marche à suivre et des étapes
modifierNous avons demandé une sélection d'environ 1500 ouvrages - avec des thèmes et des qualités d'océrisation divers - afin de tester la viabilité du projet.
2. Donner son avis sur des propositions
modifier- Pour obtenir, au lieu des « qualités d'océrisation diverses », une qualité égale à celle de Microsoft ou d'Internet Archive (exemple), que faut-il faire ?- --Zyephyrus 15 septembre 2008 à 21:37 (UTC)
3. Recenser les pratiques
modifier2009
modifierQuelle différence avec ce dont je me plaignais en 2008 ! Aujourd'hui, pour vérifier une modification par une IP, j'ai mis aussi peu de temps à retrouver un mot dans ce poème de Théophile Gautier en fac-similé sur la BnF, grâce à la recherche avancée, que pour procéder à des vérifications en mode texte : un très grand merci à tous ceux qui ont produit une telle avancée. --Zyephyrus 31 mai 2009 à 11:35 (UTC)
- De plus en plus rapide : j'ai pu vérifier cette modification aussi rapidement et même plus, à partir du lien fourni en page de discussion que si j'avais feuilleté un livre en papier.--Zyephyrus 8 juin 2009 à 18:49 (UTC)
2008
modifierCe cadre est une transclusion Source : Wikisource:Scriptorium/Septembre 2008
Jusqu'à présent nous devons effectuer les étapes suivantes : 1. récupérer le document au format PDF, 2. le transformer au format DJVU, 3. effectuer l'OCR. Je pense qu'il serait intéressant que la BNF utilise le format DJVU, un standard dans ce domaine, utilisé notamment par Internet Archive, une autre source importante de documents numérisés (http://www.archive.org/details/texts). De fait, il est plus facile de réutiliser les documents de IA, également à cause de la présentation des documents. Yann 13 septembre 2008 à 09:46 (UTC) |
Pourquoi devons-nous transformer les pdf en djvu ? Pour faire comprendre le problème, rien de tel qu'un bon exemple, en voici un. Combien de temps mettra-t-on à confronter à l'édition originale mise en ligne par Gallica cette correction d'une IP bien intentionnée ? Retrouver un mot dans un texte est ici extrêment long (plus d'une heure), alors que sur Google books ou Internet Archive, même en mode image c'est rapide. Ce qui est en jeu est la qualité de l'OCR, d'une part, et la lenteur d'affichage des pdf, d'autre part.
En effet, dans un premier temps, la recherche de « Find PDF » ne trouve dans le document ni « je le prends » (j minuscule), ni « Je le prends » (j majuscule), et ce, même en recourant à l'outil maximal, la « Full Reader's Search » (Shift + Control+F). J'imagine que c'est dû à la très mauvaise qualité de l'OCR sur laquelle repose cette recherche, est-ce que je me trompe ?
Dans un deuxième temps, feuilleter l'œuvre page par page pour retrouver le passage, faites-le et chronométrez, En 2008, je trouve que ce n'est pas acceptable, et donc que la première dépense à faire est l'investissement dans une OCR correcte pour que la recherche en mode texte puisse donner des résultats autres qu'inutilisables, et la deuxième dépense à faire (je n'ai pas dit à prévoir) : investir dans le passage du format pdf au format djvu, où chaque page d'un livre s'affiche à une vitesse comparable à celle du tournage des livres papier, rendant la lecture numérique vraiment possible. Tandis que ces dépenses ne sont pas faites en France, c'est par dizaines de millions que les lecteurs accèdent aux livres mis en ligne par le Wikisource anglais, et n'accèdent pas aux livres qui ne peuvent pas être mis en ligne par le Wikisource français.
Comparez aussi l'OCR d'Aristote ici et ici. Peut-on croire que les contributeurs français travailleront avec le même entrain que les contributeurs anglais ? La même efficacité ? Qu'ils sont armés pour gagner la course ? Veut-on qu'ils la perdent, cette course ? Et pourquoi le veut-on ? Parce qu'on n'en a pas compris les enjeux ? Hum, je crois que j'exagère un peu :)
L'investissement demandé me paraît très faible. Est-ce que je me trompe aussi sur ce point ? - --Zyephyrus 12 octobre 2008 à 10:25 (UTC)
4. Boîte à idées sur le projet
modifierChoix des 1500 livres. Pour que le projet fonctionne, il faut attirer des contributeurs. Je pense que le choix des 1500 livres n'est donc pas neutre. Le choix peut être laissé à la BNF mais il serait bon d'établir des critères ?
- Qu'il ne fassent pas partie des 449 déjà disponibles en mode page.
- Qu'il soit de préférence avec une orthographe / graphie contemporaine.
- Pourquoi ? Je trouverais ça bien d'avoir aussi quelques livres vieux/rares en vieux françois, notamment les livres à intérêt historique (lettres de Henry IV, Mémoires de Marguerite de Valois, w:Séquence de sainte Eulalie, ...). --Kipmaster 16 septembre 2008 à 14:17 (UTC)
- Qu'il puisse donner un rendu OCR de bonne qualité. Avec un peu d'expérience, on sais très vite si l'image va nécessiter 4 corrections par pages ou de tout retaper. Pour corriger 1500 livres, notre communauté n'est pas assez nombreuse, il faut pouvoir proposer des corrections de pages faciles et qui donne une satisfaction immédiate au correcteur. ?
- Une variété de sujets : romans, littérature pour enfants, poésie, histoire, classiques, curiosités... là je ne sais pas n'étant pas confronté à des demandes de lecteurs ou de correcteurs - côté lecteurs chez elg la littérature populaire à l'air d'être la plus prisée chez elg, une mesure chez Gutenberg.[1]
- Ce qui serait vraiment utile, c'est que l'on puisse demander à la BNF des documents qui nous font cruellement défaut (voir par exemple notre liste de Textes demandés). Je viens de voir que nous n'avons pas la 2e page du J’accuse de Zola. La 1ère page est disponible sur Commons (Image:J accuse.jpg). La source n'est pas indiquée, mais des recherches me font penser que ce document vient très certainement de la BNF. (la 2e page en petite résolution est par exemple disponible ici, mais c'est illisible [1]). Yann 13 septembre 2008 à 12:40 (UTC)
5. Discussion avec des contacts chez Gallica sur le Scriptorium
modifier(discussion originale sur le scriptorium)
Bonjour,
Je sais pas si on a encore un lien et des contacts actifs avec Gallica, mais je profite d'avoir une amie (d'une amie) qui travaille à la BNF pour lancer un échange avec eux. J’vais essayer de me renseigner sur les liens qu'on a avec eux et essayer de développer un peu tout ça, j’vous fais le compte-rendu dans la semaine. Assassas77 (d) 6 août 2018 à 18:38 (UTC)
Compte-rendu de la discussion téléphonique qui a eu lieu le mardi 7 août à 16h avec Isabelle Degrange.
modifier1400 ouvrages ont été livrés à Wikisource en 2010
Objectif : les transformer en epub (corrigés et validés)
Contact : Jean Philippe Moreux
Le choix du format epub est lié à la chaîne d'entrée dans Gallica qui peut être complexe. Wikisource a un format particulier de texte brut :il ne conserve pas les retours à la ligne notamment.
Gallica Studio = réutilisation par les Gallicaunautes (développeurs, mais aussi cuisiniers, etc..., / dans des projets)
Contact : Cécile Quach
Médiation numérique, valorisation, publication de billets de blog, aspect littérature.
Contact : Isabelle Degrange
Actus : 150 EPUB Gallica sélectionnés par le ministère de l’Éducation nationale https://gallica.bnf.fr/blog/18012018/150-epub-gallica-selectionnes-par-le-ministere-de-leducation-nationale
Objectifs :
- valoriser ce qui a déjà été fait
- réintégrer les epub validés et terminés
- formaliser le lien Gallica-Wikisource
- créer un lien vers les pages wikisource via le système des pages partenaires ; mettre un lien dans la notice du document
- ex : https://gallica.bnf.fr/ark:/12148/btv1b105434393.r ; il y a un lien vers « Programme réalisé grâce au mécénat de la Fondation Polonsky »
- créer une page projet Wikisource
- publier un billet de blog pour faire de la médiation autour du projet
- utiliser l'encart Gallica vous conseille (avec un lien vers l'édition corrigée sur Wikisource ?)
- créer un lien vers les pages wikisource via le système des pages partenaires ; mettre un lien dans la notice du document
- Enrichir l'offre en fonction d'une sélection, les femmes écrivain, etc..
Échéance : mise en œuvre cette année / l'intégration des epub risque de prendre un peu plus de temps
Prochaine RDV : réunion de discussion à la rentrée (19 septembre à 18h ?)
- Du coup, si il y a des personnes qui sont intéressées pour participer à cette réunion express de discussion à Paris... A priori, ce sera le 19 septembre 2018 à 18h.
- De plus, si vous savez qui contacter chez Wikimédia France pour leur parler de ce projet ?
- J’ai une petite question : pourquoi la Catégorie:Ouvrages issus du partenariat avec la BnF a-t-elle été retirée pour certains des ouvrages : voir [2] ou [3]
- Je ne connais pas bien le travail de bookworm-bot.
Assassas77 (d) 9 août 2018 à 18:02 (UTC)
- Assassas77 :Je suis très intéressé, ayant déjà contribué pour le projet Le deuxième texte à la correction de plusieurs ouvrages dont les scans étaient issus ou sont disponibles dans Gallica, dont quelques uns pour lesquels une version augmentée est prévue (repérage des noms de personnes dans les Lettres républicaines, cartographie des lieux dans les Mémoires de Madame de Mornay), ou d'autres exportés au format XML-TEI dans le cadre du projet de recherche VisiAutrices. Je suis également disponible pour la réunion. --FreeCorp (d) 27 août 2018 à 06:59 (UTC)
- Du coup FreeCorp :, j'te confirme que la réunion a bien lieu le 19 septembre à 18h (le point de rendez-vous est par l'entrée public, on se retrouve aux globes de Louis XIV à 18h à la BnF) Tu peux me contacter par email pour échanger des contacts téléphoniques pour qu'on puisse se retrouver. Assassas77 (d) 27 août 2018 à 07:25 (UTC)
2018-09-19 pré-réunion
modifierPrésences : FreeCorp et Assassas77
Travail à faire :
- préparer des statistiques pour identifier :
- avancement
- ce qui a été fait => catégorie:bon pour export
- ce qui reste à relire
- type
- ouvrages issus du partenariat avec Gallica
- facsimilés issus de Gallica (ce qui est au-delà du partenariat)
- cf ce document
- avancement
- utiliser un bot pour repasser les catégories
- convertir en masse les epub terminés
- avoir des pages d’aides prêtes sur lesquelles s’appuyer en cas d’afflux de contributeurs
- améliorer la centralisation des pages de discussion
- préparer des infographies pour compléter les pages d’aides
- améliorer la documentation des modèles : proposer un aperçu en contexte, et le modèle utilisé dans la page (modèles difficiles : titre, théâtre, taille du texte)
- voir ce qui a été proposé dans Correct comme formation des utilisateurs
Liens :
- phetools/stats
- XML TEI
Difficultés rencontrées et questions
- catégorie sur l’espace principal & catégorie dans l’espace Livre (index:)
- certains ouvrages issus du partenariat ont été décatégorisés
- identifier les critères de sélection et le processus qui ont conduit à choisir les ouvrages du partenariat (cf. ce qui a été fait pour le parcours matrimoine ⇔ centre d’intérêts des lecteurs ⇔ motivation des lecteurs)
- quel est le devenir du projet Correct
Résultat attendu :
- livrer des epub terminés
- avoir un lien entre Gallica et Wikisource
Proposition à long terme :
- inclure de nouveaux ouvrages
- proposer des ateliers à destination des gallicanautes
- préparer un MOOC Wikisource
- consolider les données de Wikidata et de la BnF
- déterrer le correcteur automatique de Wikisource pour le documenter
Dates à venir :
- 5-7 octobre 2018 - wikiconvention
- 24-25 novembre 2018 - hackathon
Pour la réunion avec Gallica :
- préparer des stats
- identifier les éléments du parcours d’un nouveau contributeur
2018-09-20 - réunion BnF-Wikisource dans les locaux de la BnF
modifierObjectif dans un premier temps : se limiter au minimum de développement informatique
Présences côté Wikisource : FreeCorp et Assassas77
Informations :
- Il existe 3500 à 4500 ouvrages (littérature, essais, …) au format epub (2, 3) dans Gallica, réalisés par un prestataire privé. Toutefois, la production interne d’epub a cessé pour des contraintes budgétaires. De plus, l’epub ne correspond pas aux outils d’accessibilité.
- La plateforme Correct était un projet ANR. Il n’a pas été possible d’intégrer la brique logicielle à cause de droits de propriété intellectuelle. Un important travail avait été fait sur l’ergonomie et sur l’accessibilité.
- https://tools.wmflabs.org/mix-n-match/#/ pour l’appariement des données
- Utilisation de CSV pour créer des entités
- OpenRefine tabulaire >> wikidata ?
- FreeCorp a présenté des informations statistiques concernant les documents de Gallica présents dans Wikisource.
Projets :
- Wikisource peut être lié depuis le site de Gallica par des liens ou une page projet dédiée (début 2019 ?).
- Wikidata-BnF : bibliographie et notices d’autorité
- entité = une édition (gallica-edi ⇔ nom ark pour 336/3000 facsimilés issus de Gallica)
- permet de connaître l’état de correction des batchs de travail
- Présentation d’une maquette de bouton Wikisource, fonctionnant avec Wikidata, et permettant un lien direct d’un ouvrage sur Gallica vers la version Wikisource.
- Réflexion sur un outil de citation pour Wikipédia ; permettant de reprendre les métadonnées renseignées sur Gallica.
- Les utilisateurs de Gallica (comme ceux de Wikisource) sont parfois demandeurs de documents à numériser. On pourrait envisager qu’ils soient ensuite OCRisés, voire envoyés sur Wikisource.
Tâches :
- Fourniture de la liste des id:gallica croisés avec la catégorie:Bon pour export
- Améliorer le guidage des utilisateurs dans Wikisource ; consolider les pratiques.
- Compte-rendu à transmettre à l’équipe BnF sur le contenu de la Wikiconvention qui concerne les GLAM et Wikisource.
- Au travers des RDV Gallica sur le blog, communiquer le calendrier et le lieu des ateliers. Des experts BnF pourraient mettre en valeur et présenter la liste des oeuvres de la liste de travail.
2019-05-20 - Suites de la réunion BnF-Wikisource dans les locaux de la BnF
modifierLa création de liens vers Wikisource depuis Gallica, envisagée pour début 2019 lors de la réunion du 20 septembre 2018, est officiellement annoncée sur le blog de Gallica le 20 mai 2019. Il faut lier sur Wikidata la page Wikisource au fac-similé Gallica pour que le lien s'ajoute automatiquement sur la page du fac-similé sur Gallica.
Cet ajout de liens, et plus largement le partenariat, sont évoqués dans la présentation de Jean-Philippe Moreux lors de l'atelier de la BnF sur la transcription de l’écriture manuscrite, le 26 janvier 2021, à 8'40 dans cette vidéo.
6. Partenariat formel BNF-Wikimédia France
modifierPour information, j'avais rencontré Isabelle Degrange à l'occasion des Journées Wikimedia Culture et numérique en mai dernier pour lesquelles je l'avais invitée à faire un retour sur les projets et actions passées. Une réunion en juillet s'en était suivie pour faire le point. Il en ressort une convention de partenariat en cours de rédaction qui inclura les futures actions sur Wikisource, une formation le 21 novembre prochain à Wikipédia et Wikimedia commons aux agents en interne dont une partie souhaite acquérir des compétences pour notamment accueillir et encadrer de futures journées contributives en 2020. --Xavier Cailleau WMFr (d) 16 octobre 2019 à 17:46 (UTC)
7.Améliorer la visibilité des liens Gallica / Wikisource ?
modifierLe petit logo menant directement vers Wikisource dans Gallica est une avancée, mais :
- Il est extrêmement discret et peu explicite pour des non-avertis
- Il n'est pas possible, depuis Gallica, de rechercher les ouvrages disponibles sur Wikisource
Ne pourrait-on pas faire en sorte que Wikisource apparaisse dans le critère « Par bibliothèque ou site » de la recherche avancée ? ou ajouter un critère dans les formats (on y trouve des epub, mais ceux de Wikisource). --Acélan (d) 19 mars 2023 à 08:17 (UTC)
Références
modifier- ↑ Intervention non signée
Tous les projets
modifier- 1. Mise en ordre des catégories
- 2. Éditions bilingues
- 3. Traductions
- 4. Documents remarquables
- 5. Numérisation
- 6. Prix littéraires
- 7. Promouvoir Wikisource
- 8. Noter la qualité
- 9. Lier entrées de dictionnaires
- 10. Chronologie
- 11. Manuel
- 12. Pourquoi contribuer ?
- 13. Macro de mise en forme
- 14. Publication papier
- 15. Wikisource visuel
- 16. Wikisource sonore
- 17. Recherche dans Wikisource
- 18. Imprimer Wikisource
- 19. Collationner textes et fac-similés
- 20. Molière
- 21. Philosophie
- 22. Des formats variés pour Wikisource
- 23. Wikisource sur CD
- 24. Dictionnaire bilingue wikisourcien-français
- 25. La Fontaine
- 26. Portail des enfants
- 27. Texte intégral
- 28. Tutoriels
- 29. Portails
- 30. Dictionnaires Encyclopédies
- 31. Baliser Wikisource
- 32. Versions optionnelles
- 33. Dialogue avec la BnF
- 34. Lettres de Madame Roland
- 35. Constitutions
- 36. Accueil Wikisource multilingue
- 37. Coquilles et scannilles
- 38. Colorer les langues
- 39. Présenter les Nouveautés de Wikisource
- 40. Accueil sur Wikisource
- 41. Recherche intelligente
- 42. Fac-similés
- 43. Monuments historiques
- 44. Les classiques des sciences sociales
- 45. Partenariats
- 46. Organisation et suivi
- 47. Dialogue avec les développeurs
- 48. Anthologies et voies d'accès
- 49. Partitions
- 50. Libre accès
- 51. Outils Javascript et Wikisource
- 52. Wikisource:Accueil/100wikijours
- 53. Baccalauréat & Concours d'entrée aux grandes écoles
- 54. Prix Nobel de littérature
- 55. Autrices
- 56. Gallia Christiana
- 57. Notre-Dame de Paris
- 58. Science
- 59. Projets pédagogiques
- 60. « Les 150 ans de la Commune » : mois de contributions
- 61. Corée
- 62. Japon
- 63. Lorraine
- 64. Dicothèque
- 65. L'école d'Ancien régime