Мишоко
Мишоко ne pense pas revenir sur Wikisource avant 2025. |
|
Liste des coquilles
modifierBonjour,
Merci pour votre liste de coquilles « a -> à », qui m'a permis de corriger une cinquantaine de coquilles. J'ai mis cette page en liste de suivi.
— Cantons-de-l'Est discuter 28 avril 2021 à 15:07 (UTC)
- Bonjour. Merci. Je pensais lever le pied dans les semaines qui viennent, donc la page risque de ne pas évoluer. J'ai jeté un œil au chapitre LV de HDCER, il y a un problème de raccord entre deux pages qui fait qu'on lit "cor rompu par le hasard". Il y a aussi "fut soumis plus de trente ans à d’humiliation" qui n'est pas conforme au fac-similé. Мишоко (d) 29 avril 2021 à 09:22 (UTC)
- Bonjour,
- J'ai corrigé les deux erreurs. Merci de les avoir trouvées.
- Quel outil avez-vous utilisé pour créer votre liste ?
- — Cantons-de-l'Est discuter 30 avril 2021 à 09:40 (UTC)
- Je n'ai utilisé aucun outil, juste le champ de recherche. On peut sélectionner l'espace de nom "Page" et la catégorie "Page validée". Voici un exemple intéressant : "des lors". Мишоко (d) 30 avril 2021 à 11:30 (UTC)
- Je comprends. Donc, pour chaque erreur distincte dans Utilisateur:Мишоко/Pages validées à corriger, vous avez créée une requête avec une expression rationnelle. — Cantons-de-l'Est discuter 1 mai 2021 à 11:04 (UTC)
- Si vous entendez par "erreur distincte" le fragment de texte qui figure à droite sur chaque ligne, la réponse est plutôt non. Mais j'ai effectivement utilisé de très nombreuses expressions différentes, et il y avait dans l'immense majorité des cas de nombreux faux positifs, donc c'était un travail très peu automatisé. Мишоко (d) 1 mai 2021 à 14:44 (UTC)
- Je comprends. Donc, pour chaque erreur distincte dans Utilisateur:Мишоко/Pages validées à corriger, vous avez créée une requête avec une expression rationnelle. — Cantons-de-l'Est discuter 1 mai 2021 à 11:04 (UTC)
- Je n'ai utilisé aucun outil, juste le champ de recherche. On peut sélectionner l'espace de nom "Page" et la catégorie "Page validée". Voici un exemple intéressant : "des lors". Мишоко (d) 30 avril 2021 à 11:30 (UTC)
Liste des coquilles (bis)
modifierBonjour,
Je vous suggère de mettre les sections de coquilles à corriger tout en haut de la page, ce qui rend la page plus facile à parcourir. Donc « eu → en » et « chezBerthe » avant « a → à ».
— Cantons-de-l'Est discuter 3 mai 2021 à 15:33 (UTC)
- Bonjour. Oui, c'était aussi mon premier instinct, mais j'ai pensé ensuite que c'était contraire aux usages en vigueur sur les pages de discussion : nouveaux fils en bas de page et sommaire en haut de page. J'ai listé quelques corrections à faire sur le tome 9 de HDCER :
- p. 17 des esprits crées /// des esprits créés
- p. 25 aveuglement /// aveuglément
- p. 69 la friction /// la faction
- p. 83 ordonner Pelage /// ordonner Pélage
- p. 84 procèdes /// procédés
- p. 92 parle nom /// par le nom
- p.132 l’on se refusa à rétablissement /// l’on se refusa à l’établissement
- p.140 j’ai fidèlement expose /// j’ai fidèlement exposé
- p.174 préjuges des ecclésiastiques /// préjugés des ecclésiastiques
- p.190 ces lois parthes /// ces rois parthes
- p.206 HenriIer /// Henri Ier
- p.234 furent étonnes /// furent étonnés
- p.256 que par sa lâcheté, /// que par sa lâcheté.
- p.270 a forme d’une manière /// a formé d’une manière
- p.270 lésions romaines /// légions romaines
- p.275 ieur conversion /// leur conversion
- p.289 ce culte relatif /// ce culte relatif.
- p.306 les auges /// les anges
- p.314 lés croix /// les croix
- p.351 gouvernes par /// gouvernés par
- Мишоко (d) 4 mai 2021 à 09:00 (UTC)
- J'ai corrigé ces erreurs. Merci de me les avoir indiqué. Je suppute que vous utilisez un logiciel de vérification grammatical pour trouver des erreurs. Mais, comment faites-vous pour trouver les pages où elles se trouvent ? Toujours manuellement ? — Cantons-de-l'Est discuter 5 mai 2021 à 18:52 (UTC)
- Bonjour. Non, je n'ai pas de logiciel de vérification grammaticale, je compare juste avec des textes équivalents trouvés sur le Net. Мишоко (d) 10 mai 2021 à 09:18 (UTC)
- J'ai corrigé ces erreurs. Merci de me les avoir indiqué. Je suppute que vous utilisez un logiciel de vérification grammatical pour trouver des erreurs. Mais, comment faites-vous pour trouver les pages où elles se trouvent ? Toujours manuellement ? — Cantons-de-l'Est discuter 5 mai 2021 à 18:52 (UTC)
Liste des coquilles (ter)
modifierBonjour,
La liste des pages corrigées s'allonge. Le nombre de liens dépasse facilement 2 000. Je suggère de créer une seconde page pour les prochaines listes de coquilles : Utilisateur:Мишоко/Pages validées à corriger (2).
— Cantons-de-l'Est discuter 23 mai 2021 à 16:17 (UTC)
- Bonjour. Je vais faire une pause sur le sujet, à moins que quelqu'un n'amène une piste intéressante à creuser. Le numéro 085 de "du → dû" n'a pas été corrigé. Мишоко (d) 24 mai 2021 à 15:53 (UTC)
Césures problématiques
modifierBonjour,
À la différence de ce que j'ai indiqué dans la page de discussion de ta dernière liste, je n'arrive pas à repérer exhaustivement les problèmes de césures : ça va quand le tiret est immédiatement suivi de la balise "ref follow" ou "section end", mais pas quand il y a un saut de ligne ; la syntaxe de recherche avec insource ne semble pas prendre en compte la syntaxe de type \s, \n ou \r. Or, c'est le cas de figure le plus courant (et, dans le cas où le tiret est immédiatement suivi de "section end", sans saut de ligne, la césure se recolle bien).
J'ai corrigé les cas où le tiret est imédiatement suivi de "ref follow".
Par ailleurs, je ne peux pas traiter ces cas avec AWB, puisqu'il faut prendre en compte la page suivante pour compléter le contenu du modèle {{tiret}}
, et ajouter le modèle {{tiret2}}
sur la page suivante ; je ne crois pas que ce soit possible. Donc si tu as les moyens de faire une liste prochainement avec ces cas de figure, ça sera bien utile. Acélan (d) 5 décembre 2023 à 15:31 (UTC)
- Bonjour. Bien vu, de mon côté je n'avais pas compris que ça fonctionne correctement lorsqu'il n'y a pas de saut de ligne. Mais dans ce cas, il suffit de supprimer le saut de ligne, pas besoin d'ajouter un Tiret2 sur la page suivante ??? J'ai fait une liste ici.
- De mon point de vue, les interventions de Denis Gagne52 et ElioPrrl sur le Scriptorium dans le fil "Césures de fin de page" (diff) sont ésotériques et il serait souhaitable de donner des consignes claires au commun des mortels. Un gadget au niveau de la fenêtre d'édition de l'espace page serait peut-être à considérer ?
- Il y a aussi toutes les pages qui se terminent par -'', -''', -}}, -|90}}, etc. Selon mes observations, ça fonctionne parfois et parfois non, sans que je sache l'expliquer. Мишоко (d) 6 décembre 2023 à 10:19 (UTC)
- J'ai l'impression que le retour chariot s'ajoute automatiquement, en tout cas dans le cas des sections.
- Pour les pages qui se terminent par -'' ou -''', il suffit de remplacer par ''- ou '''-, donc c'est traitable avec AWB (mais il me faudrait une liste).
- Pour les autres cas, ce n'est pas censé fonctionner non plus (normalement, il ne faut rien après le tiret pour que ça se recolle) ; je vais regarder de plus près. Acélan (d) 14 décembre 2023 à 18:04 (UTC)
- J'essaierai de faire une liste quand j'aurai récupéré un dump récent. Ci-dessous des exemples de pages pour lesquelles le résultat est correct alors que le tiret n'est pas le dernier caractère de la page. Par contre ça ne fonctionne pas pour par exemple Page:Staël - Œuvres inédites, II.djvu/168 Мишоко (d) 17 décembre 2023 à 17:49 (UTC)
- Page:Custine_-_La_Russie_en_1839_troisieme_edition_vol_1,_Amyot,_1846.djvu/430
- Page:Marc_de_Montifaud_Sabine_1882.djvu/91
- Page:Marteilhe - La vie aux galères, 1909.djvu/158
- C'est décidément assez mystérieux... Aucune urgence pour le dump : je suis loin d'avoir traité Discussion utilisateur:Мишоко/Annexe 0001. --Acélan (d) 17 décembre 2023 à 21:19 (UTC)
- Bonjour. J'ai renoncé à faire une liste parce qu'il y a trop de cas différents à considérer, et il y a beaucoup plus simple pour trouver des "scanilles" par ailleurs. Мишоко (d) 20 janvier 2024 à 23:31 (UTC)
- J'essaierai de faire une liste quand j'aurai récupéré un dump récent. Ci-dessous des exemples de pages pour lesquelles le résultat est correct alors que le tiret n'est pas le dernier caractère de la page. Par contre ça ne fonctionne pas pour par exemple Page:Staël - Œuvres inédites, II.djvu/168 Мишоко (d) 17 décembre 2023 à 17:49 (UTC)
Volat
modifierCunegonde1 : Bonjour. Je ne parviens pas à écrire sur votre page de discussion. Je me demande si vous ne vous seriez pas trompé dans le texte que vous avez posté sur Utilisateur:Cunegonde1/BrouillonMatchEtSplit ? En effet, le texte ne me semble pas prêt à être importé dans la mesure où par exemple il y a des points de suspension constitués de trois caractères point au lieu du simple caractère point de suspension, il y a de nombreuses césures alors que je m'attendrais à un texte sans aucune césure, et puis il y a les entêtes de page du type "�@ 28 ®"... Ça me donne l'impression que vous avez copié la couche texte du fac-similé au lieu d'un texte "propre" prêt à l'import ??? Мишоко (d) 15 avril 2024 à 11:45 (UTC)
- @Мишоко En fait c'est une extraction en texte brut de l'OCR, sans aucune modification, je n'ai sans doute pas bien compris votre demande. Si je comprends bien, il faut donc trouver un f-s correspondant à un texte sans scan déjà présent sur wikisource ou ailleurs, le f-s devant en plus être admissible sur Commons. L'ensemble de ces conditions est assez difficile à réunir, c'est pourquoi nous sommes un certain nombre de contributeurs à chercher des scans ou plutôt des extraits de scans dans lesquels se trouvent ces textes. Dans une grande proportion, ces scans ne sont pas admissibles sur Commons (publiés il y a moins de 95 ans), nous les importons donc directement sur wikisource (cf. ici une liste des imports que j'ai réalisé dans ce contexte). Cunegonde1 (d) 15 avril 2024 à 12:25 (UTC)
- Cunegonde1 : Oui, mes messages sur le Scriptorium n'étaient pas très clairs. Effectivement il me fallait un texte prêt à être importé pour faire un test dont le résultat soit utile à quelqu'un et que ce quelqu'un ait la motivation de vérifier le résultat et de me faire des retours. Mais ce n'est pas très grave, j'ai trouvé un vieux texte pas trop finalisé (L’habit vert) qui traînait sur le serveur, j'ai fait le match et le début d'un split sur 5 pages, ça montre que ça fonctionne (j'ai juste oublié de mettre les nowikis en début de page). Si un jour vous avez un texte finalisé à importer avec un fac-similé pdf ou djvu stocké sur Commons ou sur Wikisource, faites-moi signe. De toute façon, je vais reposter sur le Scriptorium quand j'aurai le temps. Merci pour votre aide. Мишоко (d) 15 avril 2024 à 13:48 (UTC)
Match&Split
modifierHistoire des animaux Utilisateur:Мишоко/Match002 Histoire des animaux 016-238 split terminé Utilisateur:Мишоко/Match005 Histoire des animaux 292-388 split terminé Utilisateur:Мишоко/Match006 Histoire des animaux 389-487 split terminé Utilisateur:Мишоко/Match007 Histoire des animaux 488-605 split terminé Parties des animaux Utilisateur:Мишоко/Match003 Parties&Marche des animaux T1 015-218 split terminé Utilisateur:Мишоко/Match008 Parties&Marche des animaux T1 239-304 split terminé Utilisateur:Мишоко/Match009 Parties&Marche des animaux T1 305-437 split terminé Utilisateur:Мишоко/Match010 Parties&Marche des animaux T2 011-126 split terminé Utilisateur:Мишоко/Match011 Parties&Marche des animaux T2 127-279 split terminé Marche des animaux Utilisateur:Мишоко/Match004 Parties&Marche des animaux T2 283-331 split terminé Utilisateur:Мишоко/Match012 Parties&Marche des animaux T2 333-415 split terminé Génération des animaux Utilisateur:Мишоко/Match013 Génération des animaux T2 011-136 split terminé Utilisateur:Мишоко/Match014 Génération des animaux T2 137-240 match terminé Utilisateur:Мишоко/Match015 Génération des animaux T2 241-350 match terminé Utilisateur:Мишоко/Match016 Génération des animaux T2 351-435 match terminé
Bonjour, Je viens de voir votre message sur le scriptorium et votre alternative au Match&Split pourrait grandement m'aider sur plusieurs transcriptions pour lesquelles j'ai le texte intégral dans l'espace principal et un lien vers le fac-similé correspondant (avec la couche OCR à remplacer intégralement par le texte présent dans l'espace principal). Voici les liens vers les pages:
https://fr.wikisource.org/wiki/Histoire_des_animaux https://fr.wikisource.org/wiki/Les_Parties_des_animaux https://fr.wikisource.org/wiki/La_marche_des_animaux https://fr.wikisource.org/wiki/La_g%C3%A9n%C3%A9ration_des_animaux
Je précise que de nombreuses pages des fs correspondants contiennent des notes de bas de page, ce qui pourrait rendre le match plus complexe à effectuer... Merci d'avance ! Epigeneticist (d) 17 avril 2024 à 13:31 (UTC)
- Bonjour. Oui, plutôt que "plus complexe" je dirais "impossible". Sur Histoire des animaux, ça fonctionne jusqu'à la page 238 : Utilisateur:Мишоко/Match002 Histoire des animaux 016-238. J'ai vu qu'il manque les accents sur les A majuscules et qu'à un endroit il est écrit "lorsqu'on" au lieu de "lorsqu'en". Je regarderai sur les autres textes s'il y a moyen de faire quelque chose. Мишоко (d) 17 avril 2024 à 14:40 (UTC)
- Bonsoir, ça semble très prometteur ! Le Match s'est arrêté au niveau de la table des matières ce qui est logique puisqu'elle n'est pas retranscrite dans le texte que j'avais créé. Si vous avez la possibilité et la patience il faudrait idéalement reprendre le Match après la table des matières. Et sinon votre outil m'aura économisé le copier coller sur 238 pages, ce qui est deja considérable ! Pourriez-vous m'indiquer comment procéder au split ? Encore merci pour votre aide précieuse ! Epigeneticist (d) 17 avril 2024 à 20:24 (UTC)
- Pour le Split c'est pareil, il faut que vous me donniez le feu vert ici.
- J'ai fait le match sur 2 autres morceaux : Utilisateur:Мишоко/Match003 Parties&Marche des animaux T1 015-218 et Utilisateur:Мишоко/Match004 Parties&Marche des animaux T2 283-331. C'est toujours la partie Préface et Dissertation. Il me reste à regarder le 4ème livre.
- Pour les autres pages où il y a toutes les notes donnez-moi 72 heures je verrai si je peux faire quelque chose. Мишоко (d) 18 avril 2024 à 12:54 (UTC)
- votre Match est très impressionnant, il me semble même meilleur que la version de Wikisource qui était assez approximative sur les transitions de page (mais difficile à affirmer avec certitude car je compare des ouvrages différents). Vous avez mon feu vert pour procéder au split. Merci d'avance ! Et si en plus vous trouvez le moyen d'apparier les pages qui ont des notes de bas de page ce serait fantastique. Epigeneticist (d) 18 avril 2024 à 13:22 (UTC)
- Quand il n'y a pas de références le Match fonctionne bien, mais dès qu'il y a des références le résultat est moins bon. Pour ces livres d'Aristote, avec les notes qui courent sur toutes les pages, c'est assez mauvais, mais ça ressemble quand même à quelque chose. J'ai posté le Match pour les pages 292 à 388 de Histoire des animaux : Utilisateur:Мишоко/Match005 Histoire des animaux 292-388. Pouvez-vous regarder et me dire si ça vaut la peine de continuer ? Мишоко (d) 19 avril 2024 à 21:38 (UTC)
- En effet c'est pas mal mais pas parfait. Pourriez vous partager votre code quelque part ou à défaut m'expliquer très brièvement comment le match est effectué ? Il me semble qu'une façon de gérer les notes de bas de page serait de les considérer comme des discontinuités dans l'alignement de produisant en bas de page. Dès lors peut-être qu'en effectuant systématiquement un nouvel alignement du texte transcrit
- juste après ces discontinuités il serait possible de l'aligner avec le haut de la page suivante et du coup d'améliorer le résultat du match. Bref que sais-je, ce que je dis est probablement très naïf mais il serait tout de même intéressant de voir si une ou 2 modifs ne pourraient pas grandement améliorer le résultat. Si c'est plus de temps que vous pouvez dédier à ce problème le résultat actuel fera très bien l'affaire, il me suffira d'ajuster manuellement les pages problématiques. Epigeneticist (d) 20 avril 2024 à 08:39 (UTC)
- Quand il n'y a pas de références le Match fonctionne bien, mais dès qu'il y a des références le résultat est moins bon. Pour ces livres d'Aristote, avec les notes qui courent sur toutes les pages, c'est assez mauvais, mais ça ressemble quand même à quelque chose. J'ai posté le Match pour les pages 292 à 388 de Histoire des animaux : Utilisateur:Мишоко/Match005 Histoire des animaux 292-388. Pouvez-vous regarder et me dire si ça vaut la peine de continuer ? Мишоко (d) 19 avril 2024 à 21:38 (UTC)
- votre Match est très impressionnant, il me semble même meilleur que la version de Wikisource qui était assez approximative sur les transitions de page (mais difficile à affirmer avec certitude car je compare des ouvrages différents). Vous avez mon feu vert pour procéder au split. Merci d'avance ! Et si en plus vous trouvez le moyen d'apparier les pages qui ont des notes de bas de page ce serait fantastique. Epigeneticist (d) 18 avril 2024 à 13:22 (UTC)
- Bonsoir, ça semble très prometteur ! Le Match s'est arrêté au niveau de la table des matières ce qui est logique puisqu'elle n'est pas retranscrite dans le texte que j'avais créé. Si vous avez la possibilité et la patience il faudrait idéalement reprendre le Match après la table des matières. Et sinon votre outil m'aura économisé le copier coller sur 238 pages, ce qui est deja considérable ! Pourriez-vous m'indiquer comment procéder au split ? Encore merci pour votre aide précieuse ! Epigeneticist (d) 17 avril 2024 à 20:24 (UTC)
- Oui, mon objectif c'était de proposer une solution de repli en attendant le retour du Match&Split original, j'ai mis au point le truc sur 3 jours et je ne pense pas aller plus loin. Il y aurait clairement moyen de faire mieux mais comme toujours la loi des 80-20 s'applique : en y passant 5 fois plus de temps, on n'obtient qu'une solution 25% meilleure. Pour le Match, j'utilise bêtement la commande diff d'Unix pour comparer le texte à importer avec le texte du fac-similé. Par exemple, au niveau du passage entre la page 393 et 394 (Utilisateur:Мишоко/Match006 Histoire des animaux 389-487) ça fonctionne mal, mais il faut dire que la page 393 finit par les mots "Comme le poids de son corps..." tandis que la page 394 commence par les mots "comme le poids de son corps" donc il n'est pas étonnant que le diff soit perdu.
- Si vous faites des ajustements manuels, une fois que c'est prêt pouvez-vous changer le statut de "match terminé" à "split à faire" dans l'encadré récapitulatif plus haut ?
- Pour Génération des animaux, avez-vous remarqué qu'il manque des pages à la fin du premier tome ? Мишоко (d) 20 avril 2024 à 11:30 (UTC)
- En tous cas en l'état le résultat est globalement très bon, je ne pense pas que l'ancien Match de Wikisource aurait fait mieux. Je suis en train d'ajuster les différents Match déjà effectués. Est-ce qu'il vous serait possible de partager votre code ainsi que les instructions pour l’exécuter (ainsi que la procédure de Split), car j'envisage une utilisation assez extensive de Match sur d'autres projets. Je maitrise le terminal ainsi que des rudiments de programmation mais j'aurais juste besoin d'explications de base pour exécuter le code sur une page Wikisource. J'imagine que cela pourra également profiter à d'autres personnes pour lesquelles l'absence de Match&Split constitue un handicap. Encore un grand merci pour votre aide précieuse ! Epigeneticist (d) 20 avril 2024 à 17:01 (UTC)
- Merci pour votre retour positif. Non, je ne partagerai jamais mon code. C'est encore une idée pour multiplier le temps de développement par 5, non ? Pour le Split, ma solution est de toute façon vraiment trop mauvaise. Мишоко (d) 22 avril 2024 à 10:42 (UTC)
- Loin de moi l'idée de vous faire perdre votre temps, bien au contraire. En tous cas vous m'avez fait gagner de nombreuses heures laborieuses de copier-coller. Il me reste encore quelques match à vérifier, je les mettrai à jour au fur et à mesure comme vous le l'avez demandé. Epigeneticist (d) 22 avril 2024 à 20:55 (UTC)
- Il me semble que dans le texte il est écrit plusieurs fois "turbine" au lieu de "turbiné". Et p. 193 et 194 il ne faut pas mettre d'accent sur le A majuscule. Мишоко (d) 4 mai 2024 à 21:38 (UTC)
- Merci, en effet je n'avais pas vu cela, je viens de corriger les 2 types d'erreurs. Je suis curieux de savoir comment vous avez repéré le problème du mot "turbiné", avez-vous une méthode pour systématiquement comparer le texte avec la couche OCR ? Epigeneticist (d) 5 mai 2024 à 09:19 (UTC)
- Non, ce sont simplement des erreurs que j'ai repérées en vérifiant de visu quelques pages au hasard. Ceci dit, comme je l'indiquais plus haut, pour le Match j'utilise le diff d'Unix donc je compare bien systématiquement le texte avec l'OCR. On pourrait s'amuser à parcourir la liste des différences pour détecter des erreurs, je viens de jeter un oeil pour voir à quoi ça ressemble et j'ai trouvé que page 18 il est écrit "un soûl organe", page 19 "et surplus d’étendue", page 23 "ont dès moyens de défense", etc. Dit comme ça, en omettant les dizaines de faux-positifs, ça paraît révolutionnaire, mais je ne pense pas que ce soit plus rapide ou plus efficace que de lire le texte et c'est surtout beaucoup moins édifiant. Мишоко (d) 5 mai 2024 à 15:59 (UTC)
- ma parole mais c'est truffé de fautes ! Peut-être que croiser les résultats qui diffèrent avec Grammalecte (il y a un module python) permettrait d'éliminer la plupart des faux-positifs ? Ou pas... Epigeneticist (d) 5 mai 2024 à 18:22 (UTC)
- Bonjour,
- J'ai corrigé le match de la page Utilisateur:Мишоко/Match013 Génération des animaux T2 011-136 puis j'ai copié le résultat vers une nouvelle page pour tester l'outil SPLIT en cours de développement (https://phabricator.wikimedia.org/T319965 pour plus de détails). Après quelques petits ajustements (remplacement de "=== " par "==" et " ===" par "==" dans les délimiteurs de page) ça a fonctionné parfaitement bien. J'ai donc indiqué split terminé. J'ai également testé le MATCH en cours de développement et ça fonctionne bien sur un texte sans référence mais beaucoup moins bien que votre outil dès qu'il y a des références. Epigeneticist (d) 15 mai 2024 à 13:46 (UTC)
- ma parole mais c'est truffé de fautes ! Peut-être que croiser les résultats qui diffèrent avec Grammalecte (il y a un module python) permettrait d'éliminer la plupart des faux-positifs ? Ou pas... Epigeneticist (d) 5 mai 2024 à 18:22 (UTC)
- Non, ce sont simplement des erreurs que j'ai repérées en vérifiant de visu quelques pages au hasard. Ceci dit, comme je l'indiquais plus haut, pour le Match j'utilise le diff d'Unix donc je compare bien systématiquement le texte avec l'OCR. On pourrait s'amuser à parcourir la liste des différences pour détecter des erreurs, je viens de jeter un oeil pour voir à quoi ça ressemble et j'ai trouvé que page 18 il est écrit "un soûl organe", page 19 "et surplus d’étendue", page 23 "ont dès moyens de défense", etc. Dit comme ça, en omettant les dizaines de faux-positifs, ça paraît révolutionnaire, mais je ne pense pas que ce soit plus rapide ou plus efficace que de lire le texte et c'est surtout beaucoup moins édifiant. Мишоко (d) 5 mai 2024 à 15:59 (UTC)
- Merci, en effet je n'avais pas vu cela, je viens de corriger les 2 types d'erreurs. Je suis curieux de savoir comment vous avez repéré le problème du mot "turbiné", avez-vous une méthode pour systématiquement comparer le texte avec la couche OCR ? Epigeneticist (d) 5 mai 2024 à 09:19 (UTC)
- Il me semble que dans le texte il est écrit plusieurs fois "turbine" au lieu de "turbiné". Et p. 193 et 194 il ne faut pas mettre d'accent sur le A majuscule. Мишоко (d) 4 mai 2024 à 21:38 (UTC)
- Loin de moi l'idée de vous faire perdre votre temps, bien au contraire. En tous cas vous m'avez fait gagner de nombreuses heures laborieuses de copier-coller. Il me reste encore quelques match à vérifier, je les mettrai à jour au fur et à mesure comme vous le l'avez demandé. Epigeneticist (d) 22 avril 2024 à 20:55 (UTC)
- Merci pour votre retour positif. Non, je ne partagerai jamais mon code. C'est encore une idée pour multiplier le temps de développement par 5, non ? Pour le Split, ma solution est de toute façon vraiment trop mauvaise. Мишоко (d) 22 avril 2024 à 10:42 (UTC)
- En tous cas en l'état le résultat est globalement très bon, je ne pense pas que l'ancien Match de Wikisource aurait fait mieux. Je suis en train d'ajuster les différents Match déjà effectués. Est-ce qu'il vous serait possible de partager votre code ainsi que les instructions pour l’exécuter (ainsi que la procédure de Split), car j'envisage une utilisation assez extensive de Match sur d'autres projets. Je maitrise le terminal ainsi que des rudiments de programmation mais j'aurais juste besoin d'explications de base pour exécuter le code sur une page Wikisource. J'imagine que cela pourra également profiter à d'autres personnes pour lesquelles l'absence de Match&Split constitue un handicap. Encore un grand merci pour votre aide précieuse ! Epigeneticist (d) 20 avril 2024 à 17:01 (UTC)
- Bonjour. Oui, j'ai suivi vos aventures sur Phabricator. Pour les références, cela semble être un problème bien connu des utilisateurs de Match&Split, voir par exemple ceci. A priori, c'est un outil qui existe depuis 14 ans donc c'est déjà un peu la préhistoire de l'informatique. Plus sérieusement, la problématique est qu'il est très facile de développer un Match simple qui fonctionne sur un texte identique au fac-similé, donc sans notes et sans modèles, mais ce serait une autre paire de manches de mettre au point un outil qui fonctionnerait parfaitement sur des textes contenant notes et modèles.
- Pour Aristote, il doit rester le tome 1 de Génération, vous pouvez vous débrouiller jusqu'à la page 300, ensuite je veux bien faire le Match mais comme je le disais plus haut il manque des pages à la fin du fac-similé. Мишоко (d) 15 mai 2024 à 15:16 (UTC)
- Je peux me tromper mais il n'est pas impossible que le nouvel outil Match&Split ait été réécrit entièrement (code source ici: https://gitlab.wikimedia.org/toolforge-repos/matchandsplit). Sans viser la perfection, ne pensez-vous pas qu'il serait intéressant de toucher un mot au développeur de votre approche du Match qui est bien meilleure que la sienne pour les pages avec notes et modèles ? L'outil Match fait gagner tellement de temps aux contributeurs de Wikisource qu'il serait dommage qu'il ne fonctionne pas mieux qu'actuellement ou même que la version précédente qui était loin d'être parfaite.
- Je vous remercie de votre proposition d'aide sur le tome 1 de Génération. J'ai effectivement pu faire tourner Match&Split jusqu'à la page 277 mais je voudrais utiliser la partie suivante avec les notes et modèles pour tester l'évolution du nouveau Match et faire un retour des optimisations au développeur. Merci également de m'avoir signalé la page manquante à la fin du fac-similé, il va falloir que je trouve une solution pour la rajouter. Epigeneticist (d) 15 mai 2024 à 21:05 (UTC)
- Je me permets d’intervenir, oui il ne faut surtout pas hésiter à contacter et faire des retours à Sohom Datta (d · c · b). Vu le nombre d’outils et leurs variations pour chaque langue, toute aide est la bienvenue. Cdtl, VIGNERON (d) 27 mai 2024 à 15:36 (UTC)