Utilisateur:Seudo/Intelligence artificielle

On devrait pouvoir se faire aider d’outils d’intelligence artificielle pour gagner du temps sur les tâches de relecture.

Demander à la correction des coquilles d’OCR à un robot conversationnel

modifier

L’idée est de fournir à un robot conversationnel, par copier/coller, une page d’un ouvrage générée par OCR (bref, la couche texte déjà présente dans le champ d'édition) et de lui demander de corriger ce qui lui semble devoir l’être.

  • Exemple de prompt pour une requête à ChatGPT ou BingAI :
Voici un texte issu d’un OCR. Essaie de corriger les erreurs d'OCR. Remplace les apostrophes droites (') par des apostrophes courbes  françaises (’) et mets des espaces selon les règles courantes de la typographie française.
<Ici le texte issu de l'OCR>
  • On peut rajouter des instructions spécifiques à certains ouvrages :
Fais cela en utilisant des "s" anciens, c’est-à-dire le caractère ſ
Lorsque tu trouves un mot grec, par exemple « ραστος », insère-le dans le code suivant : {{lang|grc|ραστος}}
Lorsque tu trouves un mot latin, par exemple « rosa », insère-le dans le code suivant : {{lang|la|rosa}}

Par exemple, il parvient parfois à reconnaître tout seul des mots grecs transcrits en caractères latins par l’OCR.

Exemple d’instruction pour un texte ancien

modifier
Voici du wikicode de Wikisource fait à partir d’un OCR pas très bon. Essaie de corriger les erreurs d’OCR. C’est un texte du 17e siècle, donc n’essaie pas de moderniser l’orthographe ; en particulier, il faut mettre des « s » longs anciens, c’est à dire le caractère « ſ ». Toutefois, remplace les apostrophes droites (') par des apostrophes courbes françaises (’) et applique les règles habituelles de typographie française pour les espaces autour des ponctuations. Lorsque des mots sont entre placés des doubles accolades, comme ceci {{modèle|valeur}}, ne les modifie pas.

Dresser un robot pour travailler sur des textes de Wikisource

modifier

Au-delà de l’utilisation d’un robot conversationnel avec un prompt plus ou moins sophistiqué, ce que n’importe qui peut expérimenter facilement, il me semble qu’on devrait pouvoir, au moyen d’un travail supplémentaire par des personnes maîtrisant les outils :

  • « dresser » une intelligence artificielle pour qu’elle améliore encore l’OCR de la plupart des textes présents sur Wikisource ;
  • la dresser spécifiquement sur certains ouvrages présentant des caractéristiques particulières (ouvrages anciens, scientifiques, avec des images, bilingues, etc.), peut-être en lui faisant regarder ce que les humains ont fait sur certaines pages ;
  • voire l’utiliser pour extraire de manière semi-automatisée des images d’ouvrages illustrés (en les envoyant sur Commons), faire des transclusions pour chaque chapitre, etc.

Demande au robot de transcrire une page à partir du fac-similé

modifier

Procédure

modifier
  • Coller l'image dans ChatGPT (abonnement payant) et lui soumettre un prompt tel que ceux ci-dessous (une alternative est d’enregistrer l'image sur son disque dur et de la donner directement au robot en attachement au message) :

Prompt pour un texte récent

modifier
Transcris le texte inclus dans cette image en code wiki, pour inclusion dans Wikisource. Essaie de conserver autant que possible la mise en forme. 

Tu dois respecter toutes les règles suivantes :
Tu dois respecter toutes les règles suivantes :

1) Lorsque le texte est centré (et uniquement lorsqu'il est centré), tu dois afficher le texte avec le modèle {{c}}, en précisant la taille de police par un pourcentage correspondant au rapport entre la taille du texte dans le paragraphe et la taille normale du texte.
Exemple 1 : {{c|Du texte centré de taille normale}}
Exemple 2 : {{c|Du texte centré dont la taille est supérieure de 60 % à la taille normale|fs=160%}}
Exemple 3 : {{c|Du texte centré dont la taille est un peu inférieure à la taille normale|fs=90%}}

2) Lorsque des paragraphes sont séparés par des interlignes, tu dois l'indiquer avec le modèle {{interligne}} en passant en paramètre la taille de l'interligne, comme multiple de "em"
Exemple pour un interligne correspondant à peu près à la hauteur de 1,5 caractère : {{interligne|1.5em}}

3) Lorsqu'une ligne horizontale de séparation apparaît, tu dois utiliser le modèle {{séparateur}}
Exemple : {{séparateur}}

4) Lorsqu'une apostrophe droite (apostrophe dactylographique) apparaît dans le texte, tu dois la remplacer systématiquement par une apostrophe courbe (apostrophe typographique).
Exemple : transcrire « l’enfant » et  non « l'enfant »

5) Lorsque un ou plusieurs mots sont en taille grande, du dois utiliser le modèle « taille » en donnant en paramètre le texte et la taille en pourcentage par rapport à la taille normale de texte.
Exemple : {{taille|Ici un texte dont la taille est 130 % plus grande par rapport au texte normal|130}}
Exemple : {{taille|Ici un texte dont la taille est un peu plus petite que le texte normal|90}}

6) Lorsqu’un ou plusieurs mots consécutifs sur une même ligne sont en italique, tu dois faire précéder et suivre ces mots d'un groupe de deux apostrophes. Ces mots doivent être sur la même ligne, c’est important.
Exemple : Ici du texte qui n’est pas en italique ; ''ici du texte en italique''.

7) Lorsqu’un mot est coupé entre une ligne et la suivante (césure), tu dois rassembler les deux parties du mots sur la première ligne, sans césure.

8) Si une ligne se termine par un ou plusieurs espaces, tu dois supprimer ces espaces.


Prompt pour un texte ancien (utilisant les ſ longs)

modifier
Transcris le texte inclus dans cette image en code wiki, pour inclusion dans Wikisource. Essaie de conserver autant que possible la mise en forme. Ce texte est ancien, il date du XVIe au XVIIIe siècle et il a donc une typographie et une orthographe différente des textes d'aujourd’hui.

Tu dois respecter toutes les règles suivantes :

1) Lorsque le texte est centré (et uniquement lorsqu'il est centré), tu dois afficher le texte avec le modèle {{c}}, en précisant la taille de police par un pourcentage correspondant au rapport entre la taille du texte dans le paragraphe et la taille normale du texte.
Exemple 1 : {{c|Du texte centré de taille normale}}
Exemple 2 : {{c|Du texte centré dont la taille est supérieure de 60 % à la taille normale|fs=160%}}
Exemple 3 : {{c|Du texte centré dont la taille est un peu inférieure à la taille normale|fs=90%}}

2) Lorsque des paragraphes sont séparés par des interlignes, tu dois l'indiquer avec le modèle {{interligne}} en passant en paramètre la taille de l'interligne, comme multiple de "em"
Exemple pour un interligne correspondant à peu près à la hauteur de 1,5 caractère : {{interligne|1.5em}}

3) Lorsqu'une ligne horizontale de séparation apparaît, tu dois utiliser le modèle {{séparateur}}
Exemple : {{séparateur}}

4) Lorsqu'une apostrophe droite (apostrophe dactylographique) apparaît dans le texte, tu dois la remplacer systématiquement par une apostrophe courbe (apostrophe typographique).
Exemple : transcrire « l’enfant » et  non « l'enfant »

5) Lorsque un ou plusieurs mots sont en taille grande, du dois utiliser le modèle « taille » en donnant en paramètre le texte et la taille en pourcentage par rapport à la taille normale de texte.
Exemple : {{taille|Ici un texte dont la taille est 130 % plus grande par rapport au texte normal|130}}
Exemple : {{taille|Ici un texte dont la taille est un peu plus petite que le texte normal|90}}

6) Lorsqu’un ou plusieurs mots consécutifs sur une même ligne sont en italique, tu dois faire précéder et suivre ces mots d'un groupe de deux apostrophes. Ces mots doivent être sur la même ligne, c’est important.
Exemple : Ici du texte qui n’est pas en italique ; ''ici du texte en italique''.

7) Lorsqu’un mot est coupé entre une ligne et la suivante (césure), tu dois rassembler les deux parties du mots sur la première ligne, sans césure.

8) Si une ligne se termine par un ou plusieurs espaces, tu dois supprimer ces espaces.

9) Tu dois respecter l’orthographe de l'époque (par exemple lorsqu'il y a « oi » alors qu’on écrirait aujourd’hui « ai ». Tu dois respecter aussi les accents graves, aigus ou circonflexes tels qu’ils sont dans l’image, ainsi que les trémas, et ne les rajoute pas lorsqu’ils sont absents). Tu dois respecter également la typographie ancienne, en particulier les « ſ » longs à la place des « s ».