Wikisource:Boite à idées

Cette page liste les idées de choses à faire sur Wikisource. Elle s’intéresse surtout aux idées d’outils à développer, plutôt qu’un répertoire de textes à traiter.

Recherche d'erreurs possibles modifier

Bonjour,

Malgré tout les efforts que déploient les personnes qui relisent les textes, il reste toujours des erreurs. Certaines seront toujours difficiles à trouver mais pour d'autres, ce devrait être possible de les repérer.

Voici quelques idées (sans doute en se limitant aux pages validées/vertes) :

quels sont les mots les plus rares ?
quels sont les mots les plus rares/courants sans entrée sur les Wiktionnaires/les lexèmes ? (pour reprendre la vieille idée de l'outil Dicompte malheureusement pas mis à jour depuis longtemps)
au sein d'un mot, quel est la fréquence de chaque séquence de caractères (n-gramme, paire, triplet, etc.) ? (les plus rares étant probablement des erreurs)
- quels sont les mélanges d'alphabets au sein d'un mot (comme "Αlphabet" avec un alpha au lieu d'un A initial, devrait apparaître comme anomalie dans le point ci-dessus mais mériterait d'être signalé à part)
reprendre les regex de MediaWiki:Gadget-Erreurs-communes.js (mais en faire un rapport plutôt que de n'afficher l'erreur que lorsque l'on se trouve sur la page)
<insérer autres idées qui pourraient servir le même objectif>

Ce n’est pas exactement un travail de bot (pas dans le sens "compte d'édition automatique" en tout cas) mais cela demande des compétences techniques que je n'ai pas vraiment (et cela peut prendre diverses formes, une page de rapport directement sur Wikisource, un outil externe, etc.).

En bonus, pourrait-on imaginer de laisser un message sur la page de l’utilisateur qui commet une erreur ? (à valider par la communauté et sans doute à limiter aux cas qui auront été repérés comme étant réellement des erreurs). Super-bonus si on peut avoir un filtre filtre anti-abus

Cdlt, VIGNERON (d) 27 février 2023 à 10:54 (UTC)[répondre]

@VIGNERON Merci pour ta requête, même si ça ne rentre pas tout à fait dans le périmètre de cette page. Peut-être qu’il faudrait établir une boite à idées ? En tout cas, c’est un projet intéressant. À+, Lepticed7 (Viens tcharer ! :D) 1 mars 2023 à 14:50 (UTC)[répondre]

@VIGNERON Je te laisse regarder le scriptorium, je pense que je réponds (au moins en partie) à ta question. Si tu veux plus de détails, je t’invite à consulter Utilisateur:ElioPrrl/Scanilles.js, notamment à partir de la ligne 100 : tu y trouveras toutes les expressions douteuses que surligne le gadget, et notamment (lignes 122 à 155) les combinaisons de lettres probablement fautives en français (par exemple nl en fin de mot, ou tb à l’intérieur d’un mot, etc.). — ElioPrrl (d) 10 septembre 2023 à 12:47 (UTC)[répondre]

ElioPrrl : cela répond à un point de ma demande (et un point important, donc merci beaucoup !) mais ma question a un angle d'approche fondamentalement différent. Le gadget est génial mais chirurgical, il fonctionne une page à la fois et page par page. Or, Wikisource contient des millions de pages, et pour les combinaisons qui sont toujours des fautes, il faudrait un outil moins chirurgical et traiter *toutes* les pages (ou en tout cas, un très grand nombre). Cela pourrait être avec AWB pour la correction mais encore faut-il commencer par faire une analyse complète (par exemple sur un dump ? je ne sais pas trop les manipuler, et surtout pas efficacement) ; la même logique s'applique d'ailleurs à tes regex, combien de faux positifs parmi les pages existantes (et en particulier sur les pages vertes validées ?). Cdlt, VIGNERON (d) 10 septembre 2023 à 16:22 (UTC)[répondre]

VIGNERON : Je comprends mieux ta demande. Je retiens d’abord l’idée très intéressante de faire une analyse statistique sur la base de données que constitue Wikisource pour établir une liste ordonnée par fréquence des combinaisons de lettres, et donner des idées de nouvelles expressions régulières. (Peut-être que cela a déjà été fait pour le français sur d’autres bases de données ?)

On peut tout à fait envisager d’utiliser les regex du gadget dans AWB (moyennant adaptation quand même : on n’a pas jQuery sur AWB) et les appliquer à toutes les pages vertes ; et d’ailleurs, en fait, M0tty et Acélan le font déjà. Je ne sais pas s’ils enregistrent leurs paramètres de recherche, et s’il est possible de les exporter pour qu’un autre les utilise.

Pour ce qui est de la question de la correction automatique : créer un nouveau JS qui corrige automatiquement les scanilles, je n’y pense même pas. Pour chaque règle, il y a toujours un texte médiéval, un texte dialectal, un nom propre étranger, que sais-je ? qu’il ne faut pas modifier. Il faudra donc toujours une surveillance humaine. Pour les nouveaux textes, comme je l’annonce sur le Scriptorium, je veux autant que possible faire en sorte que le bouton T, quand on appuie dessus, corrige les scanilles (à l’exemple de mon User:ElioPrrl/Typos.js) ; comme cet outil est normalement utilisé avant la relecture, on peut espérer que les faux positifs soient rétablis par l’humain. Pour les textes déjà publiés, on peut utiliser AWB comme Acélan et M0tty, mais peut-on faire mieux qu’eux ? j’en doute.

En particulier, si on se dit : « périodiquement, je vais faire tourner AWB avec les regex du gadget Erreurs-communes », tout ce que l’on aura volontairement laissé sans correction la fois précédente, et qui consistera donc en faux positifs, il faudra le relire à nouveau. À moins de trouver un moyen de filtrer sur AWB les pages modifiées depuis une certaine date (mais je ne crois pas que ce soit possible) ou de marquer comme relue une erreur possible (ce qui nécessiterait de revoir tout à fait le gadget).

Quant aux faux positifs, je n’ai pas de chiffres précis à donner. Mais il n’est pas rare d’avoir un faux toutes les trois ou quatre pages sur un texte validé.

J’espère ne pas répondre trop à côté cette fois-ci

— ElioPrrl (d) 10 septembre 2023 à 17:17 (UTC)[répondre]

ElioPrrl : la première réponse était déjà très bien, la seconde est encore meilleure.

Je te rejoins tout à fait pour le danger de la correction automatique, autant pour le gadget page par page, ce n'est que du signalement et le choix revient au contributeur, donc les faux-positifs ne sont pas si importants. Autant si on vise une utilisation plus large et plus massive, il faut s'assurer qu'il n'y a aucun faux-positif, c'est bien plus rare mais toujours possible d'où le besoin d'un diagnostic. Et je grossis le trait mais je ne pense pas à du tout-automatique partout, plutôt tout les pages rouges avec AWB par exemple (qui est seulement semi-automatique). Ce sont bien deux listes de regex différentes, ceci dit les secondes peuvent être intégrer (plus ou moins directement) dans les premières (on peut même retrouver ce dont on parlait sur le scriptorium : les erreurs sûres et celles juste possibles). Cdlt, VIGNERON (d) 10 septembre 2023 à 18:18 (UTC)[répondre]

Bonjour. Une idée "intermédiaire" serait de lancer les "contrôles" sur par exemple 1. les pages validées la veille ou bien 2. les pages validées la semaine précédente ou encore 3. les pages validées et corrigées qui ont été modifiées la veille etc. à charge pour les "volontaires" de jeter un oeil aux résultats ou on pourrait même poster ces résultats "chez" le contributeur qui a validé ou modifié la page. De cette façon on évite l'écueil de revoir perpétuellement les mêmes faux positifs sur un gros volume de données. Techniquement, on pourrait gérer automatiquement une catégorie "Page validée le 20231102" et utiliser l'outil d'export (https://fr.wikisource.org/wiki/Sp%C3%A9cial:Exporter) pour générer un mini-dump sur lequel tourneraient les contrôles. Bref, c'est de la science-fiction mais pour illustrer :

avec le moteur de recherche je peux générer facilement une liste des pages validées qui ont été modifiées hier 2 novembre 2023 (il y en a 455 sur un total d'environ 850000 pages validées)
avec l'outil d'export je peux générer le mini-dump
ensuite je fais tourner mes contrôles qui tournent habituellement sur le "vrai" dump :

Page:Tristan - L’émancipation de la femme, 1846.pdf/121 /// l’antiquité, après avoir écoulé en silence le détail des

Мишоко (d) 3 novembre 2023 à 08:22 (UTC)[répondre]

Sur les pages validées hier 3 novembre 2023 :

Page:Revue des Deux Mondes - 1843 - tome 2.djvu/1005 /// défendent d’en user. Edouard Aubert, après la
Page:Revue des Deux Mondes - 1852 - tome 13.djvu/526 /// encore une place a donner à mon souvenir…

Sur les pages validées qui ont été modifiées hier :

Page:Dostoïevski - Journal d’un ecrivain.djvu/134 /// capture de l’empereur. Il préfèra, lui aussi, capituler
Page:Durkheim - De la division du travail social.djvu/150 /// ait reconnu des droits a autrui, non pas

Мишоко (d) 4 novembre 2023 à 03:52 (UTC)[répondre]

Dictionnaire de modernisation modifier

Créer un bot de rangement des mots du dictionnaire de modernisation :
- Fonctionnement :
  - Créer une sous-page ou une section dans laquelle chacun peut venir ajouter un ou plusieurs mots à inclure dans le dictionnaire.
  - À chaque modification de cette page/section, le bot détecte la présence de ces mots et les déplace dans les sous-pages du dictionnaire de modernisation par ordre alphabétique.
  - Le bot purge la page/section de dépôt des mots.

--M0tty (d) 7 septembre 2023 à 19:24 (UTC)[répondre]

Numérotation des vers modifier

Créer un bot de numérotation des vers d’une pièce de théâtre, ou améliorer les balises <poem> ou le modèle {{poem}} pour prendre en charge la numérotation des vers (généralement la numérotation se fait de 5 en 5)

--M0tty (d) 7 septembre 2023 à 19:24 (UTC)[répondre]

Pouvez-vous donner un exemple de poème à numéroter ? — Cantons-de-l'Est ^p|d|d 7 septembre 2023 à 19:27 (UTC)[répondre]

Ce sont plutôt des pièces de théâtre en vers pour lesquelles la longueur du texte rend très chronophage l'ajout manuel de numérotation. Exemple : Médée (Corneille), la numérotation est faite sur les premières pages, mais pas sur la suite. M0tty (d) 8 septembre 2023 à 10:18 (UTC)[répondre]

Modernisation modifier

Amélioration du système de modernisation :

Correction d’un problème de non respect de la casse au début des mots composés.
Permettre l'export en epub de la version modernisée d'un texte.

--M0tty (d) 7 septembre 2023 à 19:24 (UTC)[répondre]

Modification de page: extension en largeur modifier

Dans l'écran de page, lors de la modification d'une page, dans la partie présentant le texte transcrit à gauche et l'image source à droite, il serait bien que la séparation puisse coulisser à droite ou gauche (permettant ainsi de réduire ou d'agrandir la partie gauche ou droite au détriment de l'autre). Quelquefois, quand le texte transcrit l'est en ligne (chaque ligne du texte transcrit correspondant à la ligne de l'image), il arrive qu'il manque un peu de place pour afficher la ligne entièrement sans retour à la ligne. Khardan (d) 8 septembre 2023 à 17:15 (UTC).[répondre]

Khardan : Bonne idée, ça peut être bien util. J'ai essayé de faire quelque chose rapidement. Essaie d'ajouter ceci dans ton fichier common.js :

importScript('Utilisateur:Seudo/resize.js');

Ensuite, en mode édition sur une page, tu devrais pouvoir redimensionner en plaçant la souris juste à droite du champ d’édition (le curseur doit alors changer de forme). Seudo (d) 10 octobre 2023 à 09:45 (UTC)[répondre]

Seudo : Oui, ça a l'air de fonctionner. Merci beaucoup. Khardan (d) 10 octobre 2023 à 17:42 (UTC)[répondre]

Seudo : Bon, finalement, c'est assez erratique: la sélection de texte dans la fenêtre d'édition fait également varier la taille de la partie gauche de la fenêtre d'édition. Khardan (d) 10 octobre 2023 à 18:09 (UTC).[répondre]

Khardan : Avec quel navigateur ? Je l'ai surtout testé avec Firefox et je vois que ça marche moins bien sur Edge (surtout en mode lecture). Seudo (d) 10 octobre 2023 à 18:45 (UTC)[répondre]

Seudo : Suis sous FF aussi. Khardan (d) 10 octobre 2023 à 19:03 (UTC).[répondre]

Après, le gadget manipule des éléments qui sont également utilisés par d'autres gadgets, donc le résultat peut dépendre de la configuration de chacun. Seudo (d) 10 octobre 2023 à 21:11 (UTC)[répondre]

Wikisourcer automatiquement un texte modifier

Faire que l'océrisation d'un texte puisse être accompagné d'un gadget qui automatise les balises wikisource des petites majuscules, titres, italiques, et notes. Un rêve éveillé, mais au moins c'est une idée ! Cela pourrait se faire à la manière du code présenté par Seudo dans Wikisource:Scriptorium/Octobre 2023#Demande d'aide pour modifications de masse. Éτienne ♄ (d) 10 octobre 2023 à 06:59 (UTC)[répondre]

Un exemple de page où cela serait utile ? Je ne comprends pas comment un gadget pourrait deviner où il faut mettre des petites majuscules ou de l'italique si l'OCR n'a pas lui-même détecté la mise en forme. Seudo (d) 10 octobre 2023 à 08:44 (UTC)[répondre]

Plus récente date de changement d'état des pages d'un Livre modifier

Je trouverais déraisonnable de commencer un travail de correction ou de validation d'un ouvrage si quelqu'un y travaille déjà (ou y a travaillé assez récemment).
A cette fin, il serait utile de connaître la date la plus récente de changement d'état (statut) des pages d'un Livre (et éventuellement la page en question); quelqu'un travaillant sur un Livre ayant forcément changé le statut d'une de ses pages en ultime action (avant de passer à autre chose).
Bien souvent je regarde l'historique de deux ou trois pages, mais comme y'a souvent des Livres en gruyère avec des pages rouges, vertes et jaunes disséminées un peu partout, je ne suis jamais sûr... Khardan (d) 10 octobre 2023 à 17:56 (UTC).[répondre]

Bonjour,

Pour cela, vous pouvez cliquer sur Suivi des pages liées dans les outils à droite dans l'espace livre, ça affichera toutes les modifications récentes des pages du livre. Cordialement. M0tty (d) 10 octobre 2023 à 21:11 (UTC)[répondre]

Merci beaucoup de cette astuce qui va me simplifier la vie. Khardan (d) 13 octobre 2023 à 22:50 (UTC)[répondre]

Paramètres invalides dans les modèles modifier

Il faudrait prévenir ou détecter les paramètres invalides dans les modèles comme par exemple :

sur Page:Vernadsky - La Biosphère, 1929.djvu/220 où il est écrit "expl=f" au lieu de "signe=f",
sur Page:Kipling - Histoires comme ça pour les petits, trad Humières et Fabulet, 1903.djvu/60 où il est écrit "taile=400px" au lieu de "taille=400px".

Мишоко (d) 26 décembre 2023 à 16:19 (UTC)[répondre]