Utilisateur:Seudo/Intelligence artificielle

On devrait pouvoir se faire aider d’outils d’intelligence artificielle pour gagner du temps sur les tâches de relecture.

Demander à la correction des coquilles d’OCR à un robot conversationnel modifier

L’idée est de fournir à un robot conversationnel, par copier/coller, une page d’un ouvrage générée par OCR (bref, la couche texte déjà présente dans le champ d'édition) et de lui demander de corriger ce qui lui semble devoir l’être.

  • Exemple de prompt pour une requête à ChatGPT ou BingAI :
Voici un texte issu d’un OCR. Essaie de corriger les erreurs d'OCR. Remplace les apostrophes droites (') par des apostrophes courbes  françaises (’) et mets des espaces selon les règles courantes de la typographie française.
<Ici le texte issu de l'OCR>
  • On peut rajouter des instructions spécifiques à certains ouvrages :
Fais cela en utilisant des "s" anciens, c’est-à-dire le caractère ſ
Lorsque tu trouves un mot grec, par exemple « ραστος », insère-le dans le code suivant : {{lang|grc|ραστος}}
Lorsque tu trouves un mot latin, par exemple « rosa », insère-le dans le code suivant : {{lang|la|rosa}}

Par exemple, il parvient parfois à reconnaître tout seul des mots grecs transcrits en caractères latins par l’OCR.

Exemple d’instruction pour un texte ancien modifier

Voici du wikicode de Wikisource fait à partir d’un OCR pas très bon. Essaie de corriger les erreurs d’OCR. C’est un texte du 17e siècle, donc n’essaie pas de moderniser l’orthographe ; en particulier, il faut mettre des « s » longs anciens, c’est à dire le caractère « ſ ». Toutefois, remplace les apostrophes droites (') par des apostrophes courbes françaises (’) et applique les règles habituelles de typographie française pour les espaces autour des ponctuations. Lorsque des mots sont entre placés des doubles accolades, comme ceci {{modèle|valeur}}, ne les modifie pas.

Dresser un robot pour travailler sur des textes de Wikisource modifier

Au-delà de l’utilisation d’un robot conversationnel avec un prompt plus ou moins sophistiqué, ce que n’importe qui peut expérimenter facilement, il me semble qu’on devrait pouvoir, au moyen d’un travail supplémentaire par des personnes maîtrisant les outils :

  • « dresser » une intelligence artificielle pour qu’elle améliore encore l’OCR de la plupart des textes présents sur Wikisource ;
  • la dresser spécifiquement sur certains ouvrages présentant des caractéristiques particulières (ouvrages anciens, scientifiques, avec des images, bilingues, etc.), peut-être en lui faisant regarder ce que les humains ont fait sur certaines pages ;
  • voire l’utiliser pour extraire de manière semi-automatisée des images d’ouvrages illustrés (en les envoyant sur Commons), faire des transclusions pour chaque chapitre, etc.