Мишоко

Мишоко ne pense pas revenir sur Wikisource avant 2025.

Bienvenue sur Wikisource en français

Wikisource est un projet collaboratif de la Wikimedia Foundation visant à la mise à disposition du patrimoine écrit. La version francophone a vocation à accueillir les textes en langues françaises, y compris en ancien français et dans la plupart des langues régionales.

▷ Qu’est-ce que Wikisource ; qu’est-ce que ce n’est pas ; comment fonctionne-t-elle : pour trouver des réponses à ces questions, une visite sur Qu’est-ce que Wikisource et Introduction à Wikisource vous est proposée.

▷ Avant toute contribution, lisez le Guide du nouveau contributeur, les Conventions typographiques et Conventions de nommages des œuvres.
Si vous souhaitez insérer un nouveau texte, n’oubliez pas d’indiquer la source de celui-ci, ou mieux, un lien vers un fac-similé.

Vous devez également respecter le droit d’auteur.

▷ Pour tout problème, un lien vers l’aide est disponible dans le menu de gauche et le Memo à l’usage des (nouveaux) contributeurs rassemble les principaux « trucs et astuces ».

Vous pouvez aussi demander de l’aide à la communauté des Wikisourciens sur le Forum des nouveaux ou le Scriptorium, ou en temps réel sur le chat IRC, ou encore en demandant à être parrainé.

▷ Vous pouvez indiquer, sur votre page utilisateur, les langues que vous parlez, vos centres d’intérêt et/ou une brève description. Vous pouvez aussi l’utiliser pour organiser vos outils personnels, vos contributions, etc. Vous pouvez vous entraîner à utiliser les outils en vous créant une sous-page de brouillon à cet effet en cliquant ici. Un mode d’emploi est disponible sur la syntaxe Wiki.

Sur les pages de discussion, pensez à signer vos contributions en cliquant sur l’icône

de la barre d’outils.

Bonne continuation parmi nous, Мишоко !

Les contributeurs de Wikisource

--*j*jac (d) 8 mars 2021 à 18:32 (UTC)Répondre

Liste des coquilles modifier

Dernier commentaire : il y a 3 ans6 commentaires2 participants à la discussion

Bonjour,

Merci pour votre liste de coquilles « a -> à », qui m'a permis de corriger une cinquantaine de coquilles. J'ai mis cette page en liste de suivi.

— Cantons-de-l'Est ^discuter 28 avril 2021 à 15:07 (UTC)Répondre

Bonjour. Merci. Je pensais lever le pied dans les semaines qui viennent, donc la page risque de ne pas évoluer. J'ai jeté un œil au chapitre LV de HDCER, il y a un problème de raccord entre deux pages qui fait qu'on lit "cor rompu par le hasard". Il y a aussi "fut soumis plus de trente ans à d’humiliation" qui n'est pas conforme au fac-similé. Мишоко (d) 29 avril 2021 à 09:22 (UTC)Répondre

Bonjour,

J'ai corrigé les deux erreurs. Merci de les avoir trouvées.

Quel outil avez-vous utilisé pour créer votre liste ?

— Cantons-de-l'Est ^discuter 30 avril 2021 à 09:40 (UTC)Répondre

Je n'ai utilisé aucun outil, juste le champ de recherche. On peut sélectionner l'espace de nom "Page" et la catégorie "Page validée". Voici un exemple intéressant : "des lors". Мишоко (d) 30 avril 2021 à 11:30 (UTC)Répondre

Je comprends. Donc, pour chaque erreur distincte dans Utilisateur:Мишоко/Pages validées à corriger, vous avez créée une requête avec une expression rationnelle. — Cantons-de-l'Est ^discuter 1 mai 2021 à 11:04 (UTC)Répondre

Si vous entendez par "erreur distincte" le fragment de texte qui figure à droite sur chaque ligne, la réponse est plutôt non. Mais j'ai effectivement utilisé de très nombreuses expressions différentes, et il y avait dans l'immense majorité des cas de nombreux faux positifs, donc c'était un travail très peu automatisé. Мишоко (d) 1 mai 2021 à 14:44 (UTC)Répondre

Liste des coquilles (bis) modifier

Dernier commentaire : il y a 2 ans4 commentaires2 participants à la discussion

Bonjour,

Je vous suggère de mettre les sections de coquilles à corriger tout en haut de la page, ce qui rend la page plus facile à parcourir. Donc « eu → en » et « chezBerthe » avant « a → à ».

— Cantons-de-l'Est ^discuter 3 mai 2021 à 15:33 (UTC)Répondre

Bonjour. Oui, c'était aussi mon premier instinct, mais j'ai pensé ensuite que c'était contraire aux usages en vigueur sur les pages de discussion : nouveaux fils en bas de page et sommaire en haut de page. J'ai listé quelques corrections à faire sur le tome 9 de HDCER :

p. 17 des esprits crées /// des esprits créés
p. 25 aveuglement /// aveuglément
p. 69 la friction /// la faction
p. 83 ordonner Pelage /// ordonner Pélage
p. 84 procèdes /// procédés
p. 92 parle nom /// par le nom
p.132 l’on se refusa à rétablissement /// l’on se refusa à l’établissement
p.140 j’ai fidèlement expose /// j’ai fidèlement exposé
p.174 préjuges des ecclésiastiques /// préjugés des ecclésiastiques
p.190 ces lois parthes /// ces rois parthes
p.206 HenriIer /// Henri Ier
p.234 furent étonnes /// furent étonnés
p.256 que par sa lâcheté, /// que par sa lâcheté.
p.270 a forme d’une manière /// a formé d’une manière
p.270 lésions romaines /// légions romaines
p.275 ieur conversion /// leur conversion
p.289 ce culte relatif /// ce culte relatif.
p.306 les auges /// les anges
p.314 lés croix /// les croix
p.351 gouvernes par /// gouvernés par

Мишоко (d) 4 mai 2021 à 09:00 (UTC)Répondre

J'ai corrigé ces erreurs. Merci de me les avoir indiqué. Je suppute que vous utilisez un logiciel de vérification grammatical pour trouver des erreurs. Mais, comment faites-vous pour trouver les pages où elles se trouvent ? Toujours manuellement ? — Cantons-de-l'Est ^discuter 5 mai 2021 à 18:52 (UTC)Répondre

Bonjour. Non, je n'ai pas de logiciel de vérification grammaticale, je compare juste avec des textes équivalents trouvés sur le Net. Мишоко (d) 10 mai 2021 à 09:18 (UTC)Répondre

Liste des coquilles (ter) modifier

Dernier commentaire : il y a 2 ans2 commentaires2 participants à la discussion

Bonjour,

La liste des pages corrigées s'allonge. Le nombre de liens dépasse facilement 2 000. Je suggère de créer une seconde page pour les prochaines listes de coquilles : Utilisateur:Мишоко/Pages validées à corriger (2).

— Cantons-de-l'Est ^discuter 23 mai 2021 à 16:17 (UTC)Répondre

Bonjour. Je vais faire une pause sur le sujet, à moins que quelqu'un n'amène une piste intéressante à creuser. Le numéro 085 de "du → dû" n'a pas été corrigé. Мишоко (d) 24 mai 2021 à 15:53 (UTC)Répondre

Césures problématiques modifier

Dernier commentaire : il y a 3 mois6 commentaires2 participants à la discussion

Bonjour,

À la différence de ce que j'ai indiqué dans la page de discussion de ta dernière liste, je n'arrive pas à repérer exhaustivement les problèmes de césures : ça va quand le tiret est immédiatement suivi de la balise "ref follow" ou "section end", mais pas quand il y a un saut de ligne ; la syntaxe de recherche avec insource ne semble pas prendre en compte la syntaxe de type \s, \n ou \r. Or, c'est le cas de figure le plus courant (et, dans le cas où le tiret est immédiatement suivi de "section end", sans saut de ligne, la césure se recolle bien).

J'ai corrigé les cas où le tiret est imédiatement suivi de "ref follow".

Par ailleurs, je ne peux pas traiter ces cas avec AWB, puisqu'il faut prendre en compte la page suivante pour compléter le contenu du modèle {{tiret}}, et ajouter le modèle {{tiret2}} sur la page suivante ; je ne crois pas que ce soit possible. Donc si tu as les moyens de faire une liste prochainement avec ces cas de figure, ça sera bien utile. Acélan (d) 5 décembre 2023 à 15:31 (UTC)Répondre

Bonjour. Bien vu, de mon côté je n'avais pas compris que ça fonctionne correctement lorsqu'il n'y a pas de saut de ligne. Mais dans ce cas, il suffit de supprimer le saut de ligne, pas besoin d'ajouter un Tiret2 sur la page suivante ??? J'ai fait une liste ici.

De mon point de vue, les interventions de Denis Gagne52 et ElioPrrl sur le Scriptorium dans le fil "Césures de fin de page" (diff) sont ésotériques et il serait souhaitable de donner des consignes claires au commun des mortels. Un gadget au niveau de la fenêtre d'édition de l'espace page serait peut-être à considérer ?

Il y a aussi toutes les pages qui se terminent par -'', -''', -}}, -|90}}, etc. Selon mes observations, ça fonctionne parfois et parfois non, sans que je sache l'expliquer. Мишоко (d) 6 décembre 2023 à 10:19 (UTC)Répondre

J'ai l'impression que le retour chariot s'ajoute automatiquement, en tout cas dans le cas des sections.

Pour les pages qui se terminent par -'' ou -''', il suffit de remplacer par ''- ou '''-, donc c'est traitable avec AWB (mais il me faudrait une liste).

Pour les autres cas, ce n'est pas censé fonctionner non plus (normalement, il ne faut rien après le tiret pour que ça se recolle) ; je vais regarder de plus près. Acélan (d) 14 décembre 2023 à 18:04 (UTC)Répondre

J'essaierai de faire une liste quand j'aurai récupéré un dump récent. Ci-dessous des exemples de pages pour lesquelles le résultat est correct alors que le tiret n'est pas le dernier caractère de la page. Par contre ça ne fonctionne pas pour par exemple Page:Staël - Œuvres inédites, II.djvu/168 Мишоко (d) 17 décembre 2023 à 17:49 (UTC)Répondre

C'est décidément assez mystérieux... Aucune urgence pour le dump : je suis loin d'avoir traité Discussion utilisateur:Мишоко/Annexe 0001. --Acélan (d) 17 décembre 2023 à 21:19 (UTC)Répondre

Bonjour. J'ai renoncé à faire une liste parce qu'il y a trop de cas différents à considérer, et il y a beaucoup plus simple pour trouver des "scanilles" par ailleurs. Мишоко (d) 20 janvier 2024 à 23:31 (UTC)Répondre

Volat modifier

Dernier commentaire : il y a 21 jours3 commentaires2 participants à la discussion

Cunegonde1 : Bonjour. Je ne parviens pas à écrire sur votre page de discussion. Je me demande si vous ne vous seriez pas trompé dans le texte que vous avez posté sur Utilisateur:Cunegonde1/BrouillonMatchEtSplit ? En effet, le texte ne me semble pas prêt à être importé dans la mesure où par exemple il y a des points de suspension constitués de trois caractères point au lieu du simple caractère point de suspension, il y a de nombreuses césures alors que je m'attendrais à un texte sans aucune césure, et puis il y a les entêtes de page du type "�@ 28 ®"... Ça me donne l'impression que vous avez copié la couche texte du fac-similé au lieu d'un texte "propre" prêt à l'import ??? Мишоко (d) 15 avril 2024 à 11:45 (UTC)Répondre

@Мишоко En fait c'est une extraction en texte brut de l'OCR, sans aucune modification, je n'ai sans doute pas bien compris votre demande. Si je comprends bien, il faut donc trouver un f-s correspondant à un texte sans scan déjà présent sur wikisource ou ailleurs, le f-s devant en plus être admissible sur Commons. L'ensemble de ces conditions est assez difficile à réunir, c'est pourquoi nous sommes un certain nombre de contributeurs à chercher des scans ou plutôt des extraits de scans dans lesquels se trouvent ces textes. Dans une grande proportion, ces scans ne sont pas admissibles sur Commons (publiés il y a moins de 95 ans), nous les importons donc directement sur wikisource (cf. ici une liste des imports que j'ai réalisé dans ce contexte). Cunegonde1 (d) 15 avril 2024 à 12:25 (UTC)Répondre

Cunegonde1 : Oui, mes messages sur le Scriptorium n'étaient pas très clairs. Effectivement il me fallait un texte prêt à être importé pour faire un test dont le résultat soit utile à quelqu'un et que ce quelqu'un ait la motivation de vérifier le résultat et de me faire des retours. Mais ce n'est pas très grave, j'ai trouvé un vieux texte pas trop finalisé (L’habit vert) qui traînait sur le serveur, j'ai fait le match et le début d'un split sur 5 pages, ça montre que ça fonctionne (j'ai juste oublié de mettre les nowikis en début de page). Si un jour vous avez un texte finalisé à importer avec un fac-similé pdf ou djvu stocké sur Commons ou sur Wikisource, faites-moi signe. De toute façon, je vais reposter sur le Scriptorium quand j'aurai le temps. Merci pour votre aide. Мишоко (d) 15 avril 2024 à 13:48 (UTC)Répondre

Match&Split modifier

Dernier commentaire : il y a 1 jour15 commentaires2 participants à la discussion

Histoire des animaux
  Utilisateur:Мишоко/Match002 Histoire des animaux 016-238            split terminé
  Utilisateur:Мишоко/Match005 Histoire des animaux 292-388            split terminé
  Utilisateur:Мишоко/Match006 Histoire des animaux 389-487            split terminé
  Utilisateur:Мишоко/Match007 Histoire des animaux 488-605            split terminé
Parties des animaux
  Utilisateur:Мишоко/Match003 Parties&Marche des animaux T1 015-218   split terminé
  Utilisateur:Мишоко/Match008 Parties&Marche des animaux T1 239-304   split terminé
  Utilisateur:Мишоко/Match009 Parties&Marche des animaux T1 305-437   split terminé
  Utilisateur:Мишоко/Match010 Parties&Marche des animaux T2 011-126   split terminé
  Utilisateur:Мишоко/Match011 Parties&Marche des animaux T2 127-279   split terminé
Marche des animaux
  Utilisateur:Мишоко/Match004 Parties&Marche des animaux T2 283-331   split terminé
  Utilisateur:Мишоко/Match012 Parties&Marche des animaux T2 333-415   split terminé
Génération des animaux
  Utilisateur:Мишоко/Match013 Génération des animaux T2 011-136       match terminé
  Utilisateur:Мишоко/Match014 Génération des animaux T2 137-240       match terminé
  Utilisateur:Мишоко/Match015 Génération des animaux T2 241-350       match terminé
  Utilisateur:Мишоко/Match016 Génération des animaux T2 351-435       match terminé

Bonjour, Je viens de voir votre message sur le scriptorium et votre alternative au Match&Split pourrait grandement m'aider sur plusieurs transcriptions pour lesquelles j'ai le texte intégral dans l'espace principal et un lien vers le fac-similé correspondant (avec la couche OCR à remplacer intégralement par le texte présent dans l'espace principal). Voici les liens vers les pages:

https://fr.wikisource.org/wiki/Histoire_des_animaux https://fr.wikisource.org/wiki/Les_Parties_des_animaux https://fr.wikisource.org/wiki/La_marche_des_animaux https://fr.wikisource.org/wiki/La_g%C3%A9n%C3%A9ration_des_animaux

Je précise que de nombreuses pages des fs correspondants contiennent des notes de bas de page, ce qui pourrait rendre le match plus complexe à effectuer... Merci d'avance ! Epigeneticist (d) 17 avril 2024 à 13:31 (UTC)Répondre

Bonjour. Oui, plutôt que "plus complexe" je dirais "impossible". Sur Histoire des animaux, ça fonctionne jusqu'à la page 238 : Utilisateur:Мишоко/Match002 Histoire des animaux 016-238. J'ai vu qu'il manque les accents sur les A majuscules et qu'à un endroit il est écrit "lorsqu'on" au lieu de "lorsqu'en". Je regarderai sur les autres textes s'il y a moyen de faire quelque chose. Мишоко (d) 17 avril 2024 à 14:40 (UTC)Répondre

Bonsoir, ça semble très prometteur ! Le Match s'est arrêté au niveau de la table des matières ce qui est logique puisqu'elle n'est pas retranscrite dans le texte que j'avais créé. Si vous avez la possibilité et la patience il faudrait idéalement reprendre le Match après la table des matières. Et sinon votre outil m'aura économisé le copier coller sur 238 pages, ce qui est deja considérable ! Pourriez-vous m'indiquer comment procéder au split ? Encore merci pour votre aide précieuse ! Epigeneticist (d) 17 avril 2024 à 20:24 (UTC)Répondre

Pour le Split c'est pareil, il faut que vous me donniez le feu vert ici.

J'ai fait le match sur 2 autres morceaux : Utilisateur:Мишоко/Match003 Parties&Marche des animaux T1 015-218 et Utilisateur:Мишоко/Match004 Parties&Marche des animaux T2 283-331. C'est toujours la partie Préface et Dissertation. Il me reste à regarder le 4ème livre.

Pour les autres pages où il y a toutes les notes donnez-moi 72 heures je verrai si je peux faire quelque chose. Мишоко (d) 18 avril 2024 à 12:54 (UTC)Répondre

votre Match est très impressionnant, il me semble même meilleur que la version de Wikisource qui était assez approximative sur les transitions de page (mais difficile à affirmer avec certitude car je compare des ouvrages différents). Vous avez mon feu vert pour procéder au split. Merci d'avance ! Et si en plus vous trouvez le moyen d'apparier les pages qui ont des notes de bas de page ce serait fantastique. Epigeneticist (d) 18 avril 2024 à 13:22 (UTC)Répondre

Quand il n'y a pas de références le Match fonctionne bien, mais dès qu'il y a des références le résultat est moins bon. Pour ces livres d'Aristote, avec les notes qui courent sur toutes les pages, c'est assez mauvais, mais ça ressemble quand même à quelque chose. J'ai posté le Match pour les pages 292 à 388 de Histoire des animaux : Utilisateur:Мишоко/Match005 Histoire des animaux 292-388. Pouvez-vous regarder et me dire si ça vaut la peine de continuer ? Мишоко (d) 19 avril 2024 à 21:38 (UTC)Répondre

En effet c'est pas mal mais pas parfait. Pourriez vous partager votre code quelque part ou à défaut m'expliquer très brièvement comment le match est effectué ? Il me semble qu'une façon de gérer les notes de bas de page serait de les considérer comme des discontinuités dans l'alignement de produisant en bas de page. Dès lors peut-être qu'en effectuant systématiquement un nouvel alignement du texte transcrit

juste après ces discontinuités il serait possible de l'aligner avec le haut de la page suivante et du coup d'améliorer le résultat du match. Bref que sais-je, ce que je dis est probablement très naïf mais il serait tout de même intéressant de voir si une ou 2 modifs ne pourraient pas grandement améliorer le résultat. Si c'est plus de temps que vous pouvez dédier à ce problème le résultat actuel fera très bien l'affaire, il me suffira d'ajuster manuellement les pages problématiques. Epigeneticist (d) 20 avril 2024 à 08:39 (UTC)Répondre

Oui, mon objectif c'était de proposer une solution de repli en attendant le retour du Match&Split original, j'ai mis au point le truc sur 3 jours et je ne pense pas aller plus loin. Il y aurait clairement moyen de faire mieux mais comme toujours la loi des 80-20 s'applique : en y passant 5 fois plus de temps, on n'obtient qu'une solution 25% meilleure. Pour le Match, j'utilise bêtement la commande diff d'Unix pour comparer le texte à importer avec le texte du fac-similé. Par exemple, au niveau du passage entre la page 393 et 394 (Utilisateur:Мишоко/Match006 Histoire des animaux 389-487) ça fonctionne mal, mais il faut dire que la page 393 finit par les mots "Comme le poids de son corps..." tandis que la page 394 commence par les mots "comme le poids de son corps" donc il n'est pas étonnant que le diff soit perdu.

Si vous faites des ajustements manuels, une fois que c'est prêt pouvez-vous changer le statut de "match terminé" à "split à faire" dans l'encadré récapitulatif plus haut ?

Pour Génération des animaux, avez-vous remarqué qu'il manque des pages à la fin du premier tome ? Мишоко (d) 20 avril 2024 à 11:30 (UTC)Répondre

En tous cas en l'état le résultat est globalement très bon, je ne pense pas que l'ancien Match de Wikisource aurait fait mieux. Je suis en train d'ajuster les différents Match déjà effectués. Est-ce qu'il vous serait possible de partager votre code ainsi que les instructions pour l’exécuter (ainsi que la procédure de Split), car j'envisage une utilisation assez extensive de Match sur d'autres projets. Je maitrise le terminal ainsi que des rudiments de programmation mais j'aurais juste besoin d'explications de base pour exécuter le code sur une page Wikisource. J'imagine que cela pourra également profiter à d'autres personnes pour lesquelles l'absence de Match&Split constitue un handicap. Encore un grand merci pour votre aide précieuse ! Epigeneticist (d) 20 avril 2024 à 17:01 (UTC)Répondre

Merci pour votre retour positif. Non, je ne partagerai jamais mon code. C'est encore une idée pour multiplier le temps de développement par 5, non ? Pour le Split, ma solution est de toute façon vraiment trop mauvaise. Мишоко (d) 22 avril 2024 à 10:42 (UTC)Répondre

Loin de moi l'idée de vous faire perdre votre temps, bien au contraire. En tous cas vous m'avez fait gagner de nombreuses heures laborieuses de copier-coller. Il me reste encore quelques match à vérifier, je les mettrai à jour au fur et à mesure comme vous le l'avez demandé. Epigeneticist (d) 22 avril 2024 à 20:55 (UTC)Répondre

Il me semble que dans le texte il est écrit plusieurs fois "turbine" au lieu de "turbiné". Et p. 193 et 194 il ne faut pas mettre d'accent sur le A majuscule. Мишоко (d) 4 mai 2024 à 21:38 (UTC)Répondre

Merci, en effet je n'avais pas vu cela, je viens de corriger les 2 types d'erreurs. Je suis curieux de savoir comment vous avez repéré le problème du mot "turbiné", avez-vous une méthode pour systématiquement comparer le texte avec la couche OCR ? Epigeneticist (d) 5 mai 2024 à 09:19 (UTC)Répondre

Non, ce sont simplement des erreurs que j'ai repérées en vérifiant de visu quelques pages au hasard. Ceci dit, comme je l'indiquais plus haut, pour le Match j'utilise le diff d'Unix donc je compare bien systématiquement le texte avec l'OCR. On pourrait s'amuser à parcourir la liste des différences pour détecter des erreurs, je viens de jeter un oeil pour voir à quoi ça ressemble et j'ai trouvé que page 18 il est écrit "un soûl organe", page 19 "et surplus d’étendue", page 23 "ont dès moyens de défense", etc. Dit comme ça, en omettant les dizaines de faux-positifs, ça paraît révolutionnaire, mais je ne pense pas que ce soit plus rapide ou plus efficace que de lire le texte et c'est surtout beaucoup moins édifiant. Мишоко (d) 5 mai 2024 à 15:59 (UTC)Répondre

ma parole mais c'est truffé de fautes ! Peut-être que croiser les résultats qui diffèrent avec Grammalecte (il y a un module python) permettrait d'éliminer la plupart des faux-positifs ? Ou pas... Epigeneticist (d) 5 mai 2024 à 18:22 (UTC)Répondre

Ajouter un sujet