À propos de ce flux de discussion

La discussion précédente a été archivée dans Discussion utilisateur:Cunegonde1/Archive 1 le 2018-11-09.



Le ciel est par dessus le toit (discussioncontributions)

Bonjour,

toujours quelques import ça concerne cette revue Littérature contemporaine (Revue), tu trouveras les liens vers galica en face des titre comme d'habitude, fais au mieux ;)

je profite des vacances de @*j*jac pour qu'il puisse un peu travailler quand il rentrera ;)

Merci

Cunegonde1 (discussioncontributions)

Bonjour, étant actuellement sur un projet auquel je tiens et qui devrait me tenir au moins jusqu'à la fin de l'année, et dans la mesure où, si j'ai bien compris, ces scans servent essentiellement à relier des textes déjà existants sur ws, je vais les faire à minima, car l'ensemble des opérations préparatoires au téléversement d'un livre prend énormément de temps.

Le ciel est par dessus le toit (discussioncontributions)

Mais ne te sens pas obligé de le faire, je comprends que tu privilégie tes projets personnels

Cunegonde1 (discussioncontributions)

Je vais le faire doucettement.

Le ciel est par dessus le toit (discussioncontributions)

Merci quand même ;)

Cunegonde1 (discussioncontributions)

Voilà, c’est Fait . Pour chaque texte, j'ai mis la première des pages concernées en rouge.

Je pense que je vais arrêter pendant un moment ce type de tâches extrêmement répétitives, si l'on veut avoir un fac-similé à peu près lisible. Cela représente des heures et des heures de travail (notamment les traitements de recadrage des images avec scantailor) pour seulement quelques pages utilisées. Je préfère consacrer mon temps sur Wikisource à des tâches moins rébarbatives comme la création de fac-similés entiers et leur correction. Bien cordialement.

Le ciel est par dessus le toit (discussioncontributions)

Merci, pas de problème, je ne te solliciterai plus pour ce genre de chose

Répondre à « Littérature contemporaine (Revue) »
Jahl de Vautban (discussioncontributions)

Bonjour Cunegonde1,

Si tu as le temps les prochains jours, pourrais-tu jeter un coup d'œil à cette page à problème ? Le scan en est défectueux ; j'ai indiqué en page de discussion le lien vers un autre fac-similé, mais je n'ai pas tes compétences en édition de djvu. Si tu pouvais le réparer, ce serait la dernière touche pour finir ce gros livre !

Cunegonde1 (discussioncontributions)

C’est Fait , il faut rafraîchir ou purger la page pour que l'on voit la différence. J’ai mis la page en rouge pour qu'elle soit bien visible dans l'espace livre (mais je suppose qu’elle est corrigée) . Bonne journée.

Jahl de Vautban (discussioncontributions)

Super, merci !

Répondre à « Une page à remplacer »
Le ciel est par dessus le toit (discussioncontributions)

Bonjour,

peux-tu importer stp les deux almanachs ci-dessous stp (problème d'import pour @*j*jac.)

voir le bas de cette page

pour la qualité c'est toi qui vois.

Merci

Cunegonde1 (discussioncontributions)

Ok, j'espère que les textes seront lisibles, les scans sont de très mauvaise qualité.

Le ciel est par dessus le toit (discussioncontributions)

ben on verra bien ;)

Cunegonde1 (discussioncontributions)
Le ciel est par dessus le toit (discussioncontributions)

un grand merci

Répondre à « Almanach du Père peinard »
Le ciel est par dessus le toit (discussioncontributions)

bonjour,


pourrais-tu stp importer les fs en entier correspondant aux textes figurant sur cette page stp. (pb avec les fs provenant de Gallica pour @*j*jac

Fais au mieux pour la qualité.

Merci

Cunegonde1 (discussioncontributions)

Ok, à première vue les scans sont des années 2010, et couverts de pétouilles, je fais au mieux.

Le ciel est par dessus le toit (discussioncontributions)

Merci

Cunegonde1 (discussioncontributions)

C'est fait j'ai téléversé les 3 numéros (1816, 1817, 1818)

  • Fac-simile L’Enfant lyrique du Carnaval, 1816 (nettoyage des pétouilles et pré-corrections)
  • Fac-simile L’Enfant lyrique du Carnaval, 1817 (brut de scan et d'OCR)
  • Fac-simile L’Enfant lyrique du Carnaval, 1818 (brut de scan et d'OCR)
Le ciel est par dessus le toit (discussioncontributions)

Merci beaucoup

Répondre à « l'enfant lyrique du carnavale »
Cantons-de-l'Est (discussioncontributions)

Bonjour,

J'observe que les pages des premiers tomes des Œuvres complètes de Buffon sont difficiles à lire : environ 40 % de chaque scan ne sert que de cadre. Est-il possible de couper ces cadres pour augmenter la surface utile des pages (ce qui rendrait plus facile la relecture, par exemple). Je ne m'engage pas à relire ces pages, mais je crois que d'autres wikisourciens doivent être rebutés en voyant ces scans.

Cunegonde1 (discussioncontributions)

A quelle édition fais tu référence, il y en a trois en cours qui sont plus ou moins avancées sur W-S ?

*Œuvres complètes augmentées par Cuvier 1829.

*Œuvres complètes augmentées par Lanessan, 1884 sur laquelle Elioprrl travaille après que j'ai fait des djvu et OCR pré-corrigés des tomes 3 et 4 (plusieurs semaines de travail pour chaque OCR pas à temps plein mais quand même).

*Histoire Naturelle, générale et particulière, en 26 volumes dont pour l'instant seul le premier tome est en ligne . C'est un scan google, je peux sans doute l'améliorer en l'émargeant, mais cela m'obligera à refaire l'OCR qui est en français 18e siècle avec s longs ce qui demande également pas mal de travail. Je veux bien le faire mais j'espère que quelqu'un le corrigera, car là aussi ce sera un gros travail.

*

Cantons-de-l'Est (discussioncontributions)
Cunegonde1 (discussioncontributions)

Malheureusement, je ne pense pas que ce soit possible sur le tome 1. car il y a des notes latérales à gauche et à droite par exemple pages 201 et 202. Regarde le tome 3 qui ne contient pas de notes latérales et édite une page, les marges sont beaucoup plus réduites.

Répondre à « Buffon - Œuvres complètes »
ElioPrrl (discussioncontributions)

Salut !

Dans la chasse aux coquilles, tu as aimablement partagé une expression régulière pour détecter les scanilles les plus fréquentes ; je tente en ce moment de rajouter cette expression au gadget de surlignage des coquilles, mais je me suis rendu compte que cela ne marchait pas sur tout un tas de chaînes de caractère pourtant prévues par toi (par exemple, « taudis que », « aorte », etc.). À mon avis, il y a au moins une erreur dès le début : la portion de code (?<!dét| devrait, je pense, se trouver à la toute fin, avant la portion trav|Trav\)ail. Mais peut-être y en a-t-il encore, parce que après cette correction le gadget surligne de très nombreuses chaînes de caractère que ne me semblent pas poser problème.

En effet, il y a une seconde erreur, mais que je ne réussis pas encore à identifier, qui fait que la parenthèse finale ( |\.|,|-| \?| :|\<) compte pour rien : de sorte que, par exemple, à cause de co, sont surlignés tous les mots commençant par co (comme, cours, contre, etc.), alors que je pense que seul co à la place de ce était ciblé. Et idem avec tous les mots qui commencent par ca, cl, dé, do, et ainsi de suite.

Je viens de voir que sur ta page Utilisateur:, tu proposes une autre expression régulière ; peut-être est-elle plus complète et surtout plus correcte (je vois que, pour cette erreur que je cite, la règle a été développée : (?<!ém|cor|sér|[bd]ét|berc|port|trav|vitr|chand)ail) ? Dans ce cas, pourrais-tu mettre à jour la page Wikisource:Chasse aux coquilles ?

Cunegonde1 (discussioncontributions)

Bonjour, effectivement la première liste est ancienne. As-tu testé celle de ma page perso ? si c'est le cas et qu'elle n'est pas buggée, je remplacerai celle de la chasse aux scanilles, qui date de 2017 et que j'améliore constamment depuis. Le debuggage d'anciennes regex est très ardue, car il est assez difficile de reconstituer ce que l'on a fait notamment avec les fragments de mots. En tout cas Merci

ElioPrrl (discussioncontributions)

Il y a aussi au moins une erreur dans cette règle ; je te laisse consulter la page où elle est implémentée, la fin de la règle ne semble pas être reconnue, à partir du signe “. Par ailleurs,

  • je ne sais pas ce que signifie (?>blablabla) ; ne serait-ce pas plutôt parfois (?<!blablabla), parfois (?<=blablabla) ?
  • il me semble que doit être rajoutée une seconde parenthèse fermante à la fin du groupe (?:(>|\s) ;
  • il y a encore ce (?<!dét| qui traîne au même endroit ;
  • ((?<!tr[èé]s|trop|bien|si)\s[Cc]onnue) est présent deux fois sous deux formes légèrement différentes, il faut enlever la première et garder la seconde (plus complète) ;
  • la portion (?:((?<![Jj]e\s|[Tt]u\s|[Ii]l\s|[Oo]n\s)|lui|(?>[Uu]n\s|[Ll]['’]|[LDCcld]es\s|cet\s|bel\s|beaux\s|jeunes?\s|premiers?\s|vieil\s|ses\s))nommes?) me semble suspecte.
Cunegonde1 (discussioncontributions)

Bon elle est bien buggée aussi. Je vais essayer de la reprendre, ça risque de prendre quelques jours

Cunegonde1 (discussioncontributions)

Dans l'exemple ci-dessus je cherche le mot "nomme" qui devrait être "homme". Ce n'est probablement pas une scanille s'il est précédé de "je,tu,il,on,lui," mais pas de tous les articles + cet, bel, beaux, etc.. Je vais la reprendre. En outre il est difficile de chaîner les fragments sans faire d'erreur de parenthèses, d'autant plus j'utilise un simple éditeur de texte et que je les teste avec sigil qui est un peu particulier dans sa gestion des regex.

ElioPrrl (discussioncontributions)

Après une première passe de corrections, je parviens à cette règle :

"(?<![Ii]l|[Ee]lle|[Oo]n|y en|en|y|lui|[mtl]’|[nv]ous)\sa\s(?=l[a’]|[A-Ù]|côté|droite|gauche|ce[lt][lt]e|celui|ne|[mts]o[n]|moi|lui|[nv]os|tête|queue|leurs?|part|contre|faire)|(?:( |>|\s|-|'|’))(VÉ|\/\/|ime|1[aelu]|I['’0-9]|afli|\b(\w[a-zà-ùA-Z]+)\b \b\1\b|accroit|[àa]la|Ali|(l’a|a)igent|antre|arec|aorte|atout|aue|avals|plait|déplait|clot|git|aveo|ayec|bâte[rs]?|bâta|bâtent|bêles?|boites?|bottes?|c[’']a|ca|cardan|carie|celai|[Cc]elte|cl|[Cc]lames?|clans|clic|cloutes?|clouter|co|cola|cote|coté|cotte|da|daines?|décroit|dés?|déplus|de[39]|dévoient|dî(t|tes)|do|dont\sou|dupassé|ea|Eli|[Ee]lé?|[Éé]liez|échiné|enl|en\sroule|entant|eu|esi|épouvantait|estce|étalent|é[lt]alt?|étes|évoque|Fart|fartes?|Fauteur|fat?|faîte|fdle?|fiançais|fït|Fo|foire|fondions|foret|fouie|fols|fur|[Gg]ela|gène|gu[ei]|Hais|heu|honnète|[ïî]|[Ii]i|.it il|.it elleilua|im|inoi|ini|inonde|incuite|[[Jj]\s|l['’]aire|l['’]eut|lâcheuses?|lactique|[rl]ai[ts]?|laites?|lard|laveur|lavu|lemmes?|l[éè]s?|lésa|le[39]|tien|ligures?|litres?|ll|lous|luf|maia|ma[ït]s|maitr(e|esse)s?|maitris[eéèaoiâ][snoeimrt]?[snzteai]?[snei]?[tsoenz]?[nzt]?[st]?|malin|maniéré|médian|[mM]ème|mémo|mil|mimes|mo[lru]|môme|môle|motie|moulon|moulons|moyeu|nait|connait|méconnait|reconnait|renait|ni[ae]|niais|niasse|no|npu|onl|oti|ôtes-vous|ôtes|O/O|[PFT]onde|Pair|[Pp]ais|parait|apparait|disparait|réapparait|reparait|par\sexempte|paries?|[PTR]avons?|perle|peul|Po|pue|pins|Qh|qu|[Qq]uanta|qni|quelquil|quelle|Quelle|raffaire|relirai|à\srencontre|rembarras|rétendue|rétablissement|rintérêt|renti|rho|rie|rivai|rl|rosés?|roules?|[rR]ouie|saris|scs|sdr|silène|soldais?|sombré|sons\sl[ae]|[Ss]ou|se\smil|tais-loi|Tan|taudis\sque|tète|tilles?|tf|tn|tins?|Ton|[Tt]onte|tout\sà\slait|toules?|Tordre|[Ttd]une|trav|U[st]|u<lie|v|vêlement|[Vv]oila|[Vv]voua|yie|((?<![Uu]n\s)anx?)|au(dessus|dessous|del[aà])|11(?!\s(janvier|février|mars|avril|mai|juin|juillet|août|septembre|octobre|novembre|décembre))|(dé|en|)chain(ée|er?|ement)s?|([Cc]elle)(?!\sà|\sdu|\sd’|\sde|\sdont|\spour|\sdans|\soù|\squ[’ei]|-ci|-l[aà])|([Cc]ette)(sdu|\sd’|\sde|\sdont|\soù|\squ[’ei]|-ci|-l[aà])|((?<!tr[èé]s\s|trop\s|bien\s|peu\s)connue)|(?<![Aa]u\s|[Aa]u-)del[aà]|(?<!du\s|[cl]e\s|leur\s|[TSmts]on\s)dos(?!\sà)|([Ee]h(?!\sbien|donc|quoi|non|oui|que))|(?<=[DLMSdlms]es\s|[Nn]os\s|[Uu]ne\s|[MSTmst]on\s|[Cc]ette\s|[Qq]elques\s|[Ll]eurs\s)éludes?|(?<=j['’]|tu\s|il\s|elle\s|on\s)études?|(?<!statu\s)quo|(?<=[Ii]ls?\s|[Ee]lles?\s|[NVnv]ous\s|l’)écoul(ait|e|aient)|[Ee]u\s(?=proie|effet|hiver|automne|terre|général|route|marche|lien|est|[a-zÀ-Ù]+ant|[A-ZÉÈ])|(?<!le\s|ce\s|un\s)fil|fout\s([a-zÀ-Ù]+er|[a-zÀ-Ù]+re|[a-zÀ-Ù]+ir)|([Ii]l\s|[Ee]lle\s|[Oo]n)\sf[uû]i(?![ts])|[Gg]omm(e|ent)|([Uu]n|[Ll]e|[Cc]e|[ad]u)\sinonde|(?:(?<!en\s|ce\s|ces)lien(?!s\sde|\sde))|(?:([Uu]ne|[Ss]ans|[Ll]a|[Ll]es)\slins?)|(?:([Uu]ne|[Cc]ette|première|dernière|la)\slois)|(?<=l['’]e[uû]t\s)lachés?|laché(s\sde|\sde)|(?<!ém|cor|sér|[bd]ét|berc|port|trav|vitr|chand)ail|(?<!la\s|de\s|une\s|pleine\s)lune|(?:((?<![Jj]e\s|[Tt]u\s|[Ii]l\s|[Oo]n\s)|lui|(?<=[Uu]n\s|[Ll]['’]|[LDCcld]es\s|cet\s|bel\s|beaux\s|jeunes?\s|premiers?\s|vieil\s|ses\s))nommes?)|(?<![Ii]l\s|[Ee]lle\s)noua|on(?=\savant|\sarrière|\sces?)|\bparle\b(?!\sainsi|\sau|\savec|\scomme|\sd’|\sdans|\sd[eu]|\sdonc|\sici|\sjamais|\stoujours|\spendant|\sl[àa]|\slui|\spas|\sni|\splus|\spour|\sque)|parces?(\sbiais?|\stemps|\smoyens?)|(pari[eéèaoiâ][snoeimrt]?[snzteai]?[snei]?[tsoenz]?[nzt]?[st]?)|(profil[eéèaoiâ][snoeimrt]?[snzteai]?[snei]?[tsoenz]?[nzt]?[st]?)|sout?|(?<=([TSmts]on|[NVnv]otre|[Ll]eur|[Uu]n|[Ll]e|[ADad]ux?)\sternies?)|[Tt]on(s|tes?)|((?<=très|trop|assez|bien)\svile)|(?<=à|de)\srentrée|((?<=je|tu|ne|il|elle|le)\syeu[tx]))( |\s|\.|,|\s\?|\s:|<)|(\s[cdjlmnrstuùCDJLNRSTU]\s)|([„■•~\"\“\#\^\|\]\[\]])"

où les dernières corrections ont été intégrées dans la parenthèse principale (celle qui commence à . Là, le code semble ne plus avoir de fautes de syntaxe ou de parenthésage, mais par contre même problème que pour la vieille expression : cela cible tous les débuts de mots, la parenthèse ( |\s|\.|,|\s\?|\s:|<) en fin de code compte pour rien.

Cunegonde1 (discussioncontributions)

Telle qu'elle, elle ne fonctionne pas sur Sigil, alors que la mienne fonctionne (mais partiellement). Je vais reprendre les règles une à une, les vérifier et ensuite essayer de les chaîner correctement.

Cunegonde1 (discussioncontributions)

Celle qui est sur ta page Scanilles.js fonctionne correctement sur Sigil, j'ai vu que tu as retiré la recherche des a sans accents qui provoque trop de faux positifs, pour le reste, je vais comparer et essayer de comprendre ce que j'ai pu faire il y a 4 ans.

ElioPrrl (discussioncontributions)

Je viens de comprendre que \s est inconnu à MediaWiki ; si on lui demande de mettre en surbrillance la chaîne "\s", il surligne tous les s minuscules .

ElioPrrl (discussioncontributions)

Je crois que je viens de trouver !!! \s et \. ne semblent pas échapper les caractères, et trouvent donc le premier les s minuscules, et le second un quelconque caractère. Par contre, \\s et \\. les échappent bien : avec

(?:( |>|\-|\'|\’))taudis\\sque(?=,| |<|\\.)

par exemple, je trouve bien « taudis que », et avec

(?:( |>|\-|\'|\’))a(?=,| |<|\\.)

je ne trouve que les a isolés. Je vais essayer de remplacer systématiquement \s et \. par \\s et \\., et je reviens confirmer que ça marche (j’y crois).

Ca marche !
Cunegonde1 (discussioncontributions)

Ouaou ! déjà que les regex c'est assez prise de tête, avec en plus les spécificités du langage wiki c'est carrément cass-tête. En tout cas pour mon usage perso, je vais repartir de ton exemple qui fonctionne jusqu'au bout et l'enrichir progressivement. En 2017 quand j'avais fait la grosse regex cela m'avait pris un mois et j'en rêvais toutes les nuits, j'ai cru devenir dingue.

ElioPrrl (discussioncontributions)

Voici la règle qui marche sur Wikisource (peut-être pas sur Sigil, par contre, mais je pense que pour cela il suffit de changer à rebours les \\s et \\. en \s et \.). Je vais maintenant la modifier de mon côté selon mes préférences personnelles .

"(?<![Ii]l|[Ee]lle|[Oo]n|y en|en|y|lui|[mtl]’|[nv]ous)\\sa\\s(?=l[a’]|[A-Ù]|côté|droite|gauche|ce[lt][lt]e|celui|ne|[mts]o[n]|moi|lui|[nv]os|tête|queue|leurs?|part|contre|faire)|(\\s[cdjlmnrstuùCDJLNRSTU]\\s)|([„■•~\"\“\#\^\|\]\[\]])|(?:(\\s|>|\-|\'|\’))(VÉ|\/\/|ime|1[aelu]|I['’0-9]|afli|\b(\w[a-zà-ùA-Z]+)\b \b\1\b|accroit|[àa]la|Ali|(l’a|a)igent|antre|arec|aorte|atout|aue|avals|plait|déplait|clot|git|aveo|ayec|bâte[rs]?|bâta|bâtent|bêles?|boites?|bottes?|c[’']a|ca|cardan|carie|celai|[Cc]elte|cl|[Cc]lames?|clans|clic|cloutes?|clouter|co|cola|cote|coté|cotte|croit|crut|da|daines?|décroit|dés?|déplus|de[39]|dévoient|dî(t|tes)|do|dont\\sou|dupassé|ea|Eli|[Ee]lé?|[Éé]liez|échiné|enl|en\\sroule|entant|eu|esi|épouvantait|estce|étalent|é[lt]alt?|étes|évoque|Fart|fartes?|Fauteur|fat?|faîte|fdle?|fiançais|fït|Fo|foire|fondions|foret|fouie|fols|fur|[Gg]ela|gène|gu[ei]|Hais|heu|honnète|[ïî]|[Ii]i|.it il|.it elleilua|im|inoi|ini|inonde|incuite|[[Jj]\\s|l['’]aire|l['’]eut|lâcheuses?|lactique|[rl]ai[ts]?|laites?|lard|laveur|lavu|lemmes?|l[éè]s?|lésa|le[39]|tien|ligures?|litres?|ll|lous|luf|maia|ma[ït]s|maitr(e|esse)s?|maitris[eéèaoiâ][snoeimrt]?[snzteai]?[snei]?[tsoenz]?[nzt]?[st]?|malin|maniéré|médian|[mM]ème|mémo|mil|mimes|mo[lru]|môme|môle|motie|moulon|moulons|moyeu|nait|connait|méconnait|reconnait|renait|ni[ae]|niais|niasse|no|npu|onl|oti|ôtes-vous|ôtes|O/O|[PFT]onde|Pair|[Pp]ais|parait|apparait|disparait|réapparait|reparait|par\\sexempte|paries?|[PTR]avons?|perle|peul|Po|pue|pins|Qh|qu|[Qq]uanta|qni|quelquil|quelle|Quelle|raffaire|relirai|à\\srencontre|rembarras|rétendue|rétablissement|rintérêt|renti|rho|rie|rivai|rl|rosés?|roules?|[rR]ouie|saris|scs|sdr|silène|soldais?|sombré|sons\\sl[ae]|[Ss]ou|se\\smil|tais-loi|Tan|taudis\\sque|tète|tilles?|tf|tn|tins?|Ton|[Tt]onte|tout\\sà\\slait|toules?|Tordre|[Ttd]une|trav|U[st]|u<lie|v|vêlement|[Vv]oila|[Vv]voua|yie|((?<![Uu]n\\s)anx?)|au(dessus|dessous|del[aà])|11(?!\\s(janvier|février|mars|avril|mai|juin|juillet|août|septembre|octobre|novembre|décembre))|(dé|en|)chain(ée|er?|ement)s?|([Cc]elle)(?!\\sà|\\sdu|\\sd’|\\sde|\\sdont|\\spour|\\sdans|\\soù|\\squ[’ei]|-ci|-l[aà])|([Cc]ette)(sdu|\\sd’|\\sde|\\sdont|\\soù|\\squ[’ei]|-ci|-l[aà])|((?<!tr[èé]s\\s|trop\\s|bien\\s|peu\\s)connue)|(?<![Aa]u\\s|[Aa]u-)del[aà]|(?<!du\\s|[cl]e\\s|leur\\s|[TSmts]on\\s)dos(?!\\sà)|([Ee]h(?!\\sbien|donc|quoi|non|oui|que))|(?<=[DLMSdlms]es\\s|[Nn]os\\s|[Uu]ne\\s|[MSTmst]on\\s|[Cc]ette\\s|[Qq]elques\\s|[Ll]eurs\\s)éludes?|(?<=j['’]|tu\\s|il\\s|elle\\s|on\\s)études?|(?<!statu\\s)quo|(?<=[Ii]ls?\\s|[Ee]lles?\\s|[NVnv]ous\\s|l’)écoul(ait|e|aient)|[Ee]u\\s(?=proie|effet|hiver|automne|terre|général|route|marche|lien|est|[a-zÀ-Ù]+ant|[A-ZÉÈ])|(?<!le\\s|ce\\s|un\\s)fil|fout\\s([a-zÀ-Ù]+er|[a-zÀ-Ù]+re|[a-zÀ-Ù]+ir)|([Ii]l\\s|[Ee]lle\\s|[Oo]n)\\sf[uû]i(?![ts])|[Gg]omm(e|ent)|([Uu]n|[Ll]e|[Cc]e|[ad]u)\\sinonde|(?:(?<!en\\s|ce\\s|ces)lien(?!s\\sde|\\sde))|(?:([Uu]ne|[Ss]ans|[Ll]a|[Ll]es)\\slins?)|(?:([Uu]ne|[Cc]ette|première|dernière|la)\\slois)|(?<=l['’]e[uû]t\\s)lachés?|laché(s\\sde|\\sde)|(?<!ém|cor|sér|[bd]ét|berc|port|trav|vitr|chand)ail|(?<!la\\s|de\\s|une\\s|pleine\\s)lune|(?:((?<![Jj]e\\s|[Tt]u\\s|[Ii]l\\s|[Oo]n\\s)|lui|(?<=[Uu]n\\s|[Ll]['’]|[LDCcld]es\\s|cet\\s|bel\\s|beaux\\s|jeunes?\\s|premiers?\\s|vieil\\s|ses\\s))nommes?)|(?<![Ii]l\\s|[Ee]lle\\s)noua|on(?=\\savant|\\sarrière|\\sces?)|\bparle\b(?!\\sainsi|\\sau|\\savec|\\scomme|\\sd’|\\sdans|\\sd[eu]|\\sdonc|\\sici|\\sjamais|\\stoujours|\\spendant|\\sl[àa]|\\slui|\\spas|\\sni|\\splus|\\spour|\\sque)|parces?(\\sbiais?|\\stemps|\\smoyens?)|(pari[eéèaoiâ][snoeimrt]?[snzteai]?[snei]?[tsoenz]?[nzt]?[st]?)|(profil[eéèaoiâ][snoeimrt]?[snzteai]?[snei]?[tsoenz]?[nzt]?[st]?)|sout?|(?<=([TSmts]on|[NVnv]otre|[Ll]eur|[Uu]n|[Ll]e|[ADad]ux?)\\sternies?)|[Tt]on(s|tes?)|((?<=très|trop|assez|bien)\\svile)|(?<=à|de)\\srentrée|((?<=je|tu|ne|il|elle|le)\\syeu[tx]))(\\s| |,|<|\\.)"

PS : je viens de modifier la page Wikisource:Chasse aux coquilles pour la mettre à jour.

Cunegonde1 (discussioncontributions)

Bonjour @ElioPrrl, il me semble que l'on pourrait également ajouter une recherche de doublons comme cela :

(?s)(?!nous|vous|faire|s\ss’)\b([-'’a-zÀ-ÿâàéèêëîïôùûüœæſ]+)\b\s\b$1\b

Elle fonctionne correctement sur le testeur de regex d'AWB, mais sur Sigil elle bloque sur les caractères diacritiques par exemple elle matche sur " ma maîtresse " car elle s'arrête au "î". La requête exclue les faux positifs les plus fréquents : nous nous, vous vous, faire faire, (il y en a sans doute d'autres).

ElioPrrl (discussioncontributions)

Bonjour ! Je le pense aussi, depuis que je vois M0tty passer ses journées à corriger ces doublons ! Je vois au moins « en en » à éviter aussi. Est-ce que remplacer le crochet par [-'’a-ùA-Ùœæſ] ne fonctionne pas mieux sur Sigil ?

Cunegonde1 (discussioncontributions)

Effectivement j'ai "en en" dans ma regex, mais elle génère pas mal de faux positifs. Malheureusement ta solution ne fonctionne pas non plus, j‘ai également essayé \b(\p{L}+)\b sans plus de succès.

ElioPrrl (discussioncontributions)

Après, on peut faire un sort spécial à « en en », en exceptant son cas de la recherche de doublon, mais en le faisant surligner plus loin dans le code, sauf quand il est suivi de participes présents : en\\sen(?!\\s[a-ù]+ant) (où quelque chose du genre).

Pour Sigil, je ne connais vraiment pas — je me mets doucement aux expressions régulières depuis quelques mois, mais seulement au sein des fichiers .js de Wikisource — désolé...

Cunegonde1 (discussioncontributions)

Sigil est bizarre dans son comportement pour les regex. En plus j'utilise une très vieille version sous linux. Bonne idée d'exclure les participes présents.

ElioPrrl (discussioncontributions)

Par contre, dans la règle anti-doublon, à quoi correspond le (?s) ? Il ne manquerait pas des deux-points, ou une barre oblique ?

Cunegonde1 (discussioncontributions)

non théoriquement sur Sigil (?s) indique le mode multiligne je m'en sers pour chercher les notes créer les balises ref et déplacer le contenu de la note à l'endroit de l'appel de note, y compris pour les notes sur plusieurs pages avec follow. Le fait que chaque paragraphe soit délimité par une balise p cela facilite les choses. Cela m'a bien servi pour l’Histoire de la France contemporaine de Taine et ses milliers de notes.

ElioPrrl (discussioncontributions)

*mind = blown*

Jahl de Vautban (discussioncontributions)

Bonjour à vous deux, une question vis-à-vis de cette regex : où l'utilisez-vous ? Lorsque je la mets dans le moteur de recherche wiki, on me dit que la requête est trop longue...

Aussi, petite suggestion de ma part : est-il possible d'insérer quelque chose comme [A-Za-z][Α-Ωα-ω]|[Α-Ωα-ω][A-Za-z] pour détecter toute apposition d'un caractère grec et latin ?

ElioPrrl (discussioncontributions)

Jahl de Vautban : Pour ma part, elle se trouve (un peu modifiée, adaptée à ma tolérance aux faux positifs) dans la sous-page Utilisateur:ElioPrrl/Scanilles.js, au sein de quelques lignes de code qui exécutent la regex en même temps que le gadget « Erreurs communes » ; et le code de cette sous-page est importé et exécuté dans mon Utilisateur:ElioPrrl/common.js.

Comme la regex a été adaptée de celle partagée par Cunégonde1, elle est en un seul bloc, mais il est tout à fait possible de mettre à la suite plusieurs regex différentes, entre guillemets droits, et séparées par des virgules (déjà le cas sur ma page).

Je viens par exemple de rajouter cette regex à ma page, et elle semble marcher : par exemple elle surligne Hρας ἲoν.
Cunegonde1 (discussioncontributions)

@Jahl de Vautban J'utilise ces regex enchaînées hors ligne, car je prépare hors ligne tous les livres que transcrit avec le logiciel de création d'epub Sigil. Celui-ci non seulement permet d'utiliser des regex pour chercher/remplacer du texte, mais aussi de de créer ce qu'ils appellent des clips qui modifient directement un mot sur lequel on clique pour lui appliquer les différents modèles de WS, c'est également avec ce logiciel que j'ai semi-automatisé l'insertion des notes à l'endroit où se trouve l'appel de note. Bref, je le trouve très performant, solide et rustique comme un tracteur, très utile. Ensuite je n'ai plus qu'à copier les pages toutes corrigées sur WS.

Jahl de Vautban (discussioncontributions)

Top merci ! Je dérobe honteusement l'appel au script sans prendre le temps de créer ma sous-page, je ferai avec les faux positifs. Pour l'édition je n'en suis pas encore là, mais un jour viendra !

ElioPrrl (discussioncontributions)

Je vais modifier très souvent ma sous-page dans les prochains jours, au fur et à mesure que je corrigerais plus de pages. Si vous avez de nouvelles idées de chaînes suspectes, je pourrais les rajouter à ma sous-page. Peut-être peut-on utiliser la page de discussion de la Wikisource:Chasse aux coquilles pour ne pas polluer la PDD de Cunegonde1 ? Je laisserai par contre Cunegonde1 mettre à jour sa propre regex sur cette page, parce que celle de ma sous-page s’en écarte de plus en plus.

Répondre à « Expression régulière »
Cantons-de-l'Est (discussioncontributions)

Bonjour,

Merci pour votre travail :-).

J'observe que la page 507 manque. En effet, je vois le scan de la page 511.

Cunegonde1 (discussioncontributions)

J’ai appuyé sur le bouton TL dans la barre d'outils et cela remplace le contenu par la couche texte du fac-similé.

Cantons-de-l'Est (discussioncontributions)

Le scan est en faute (c'est la page 511, mais elle devrait être la page 507).

Cunegonde1 (discussioncontributions)

Avez-vous purgé le livre et les pages ? si ce n'est pas le cas, il faut le faire. Chez moi c'est correct. Les pages se suivent dans le bon ordre.

Cantons-de-l'Est (discussioncontributions)

Ça fonctionne .

Répondre à « Mille et nuits »
Le ciel est par dessus le toit (discussioncontributions)

Bonjour Cunégonde,

Même si je n'ai pas terminé toutes les transclusions pour le Mercure de France,

pourrais-tu importer les numéros entiers de la revue Europe manquant,

parce que @*j*jac n'arrive pas à avoir de couche texte (et c'est le cas pour pas mal de revues quand les fs proviennent de Gallica ; je le ping pour qu'il t'explique s'il le désire).

Comme toujours se n'est pas pressé.

Pour la qualité, fait au mieux.

Merci

Cunegonde1 (discussioncontributions)

Ok, je regarde ça. Avant, je finalise le T4 de Buffon qui est en cours de préparation, et j'attends les instructions de *j*jac

Le ciel est par dessus le toit (discussioncontributions)

ok merci

*j*jac (discussioncontributions)

Bonjour @Cunegonde1,

Le @Le ciel est par dessus le toit a bien résumé ! Quand je crée un DjVu à partir d'un pdf de Gallica, je n'ai pas de couche-texte.

C'est sympa de venir nous aider. En fait, il n'y a pas de consigne particulière...

Cunegonde1 (discussioncontributions)

OK, ça marche. Comme indiqué plus haut je finis le T.4 de Buffon qui est un gros morceau avec pré-correction des principales scanilles dans le djvu, et ensuite je passe à Europe.

Cunegonde1 (discussioncontributions)

C’est Fait , Europe Bonne journée.

*j*jac (discussioncontributions)

Grand Merci Bon WE à toi aussi...

Le ciel est par dessus le toit (discussioncontributions)

Merci beaucoup !

Répondre à « Imports Europe (revue) »
Le ciel est par dessus le toit (discussioncontributions)

Bonjour Cunegonde

Là c'est du très gros boulot :

Il faudrait importer les fs des textes qui figure sur cette page : Mercure de France

il faut importer en entier la revue, de chaque numéro indiqué sauf ceux ou le texte a une 'icone "livre" devant le titre.

Pour les éditions du fin 19e et 20e siècle, vérifier que "tous" les auteurs soit DP, j'essaierai de préciser les éditions à ne pas importer quand j'aurai une connexion internet satisfaisante;

Pour la qualité d'import je te laisse juge, fais au mieux !

Merci de me lister quand il sont faits les imports effectués.

Je suis conscient que c'est un long et fastidieux travail, fais comme tu peu, au rythme qui te convient.

Et déjà un grand Merci.

Cunegonde1 (discussioncontributions)

Ok, effectivement cela fera du boulot. Je te préviens cependant que pour les éditions avant 1790-1800 (avec ſ longs) mon abbyy finereader 15 ne sait pas les reconnaître, je le fais avec Tesseract qui est également très bon, mais ne permet pas de contrôler finement les zones de reconnaissance. De toute façon, je n'ai pas le choix. J’essaierai d’en faire un par semaine (j'ai également d'autres projets en cours que je souhaite faire avancer également).

Le ciel est par dessus le toit (discussioncontributions)

fais au mieux :) rien n'est pressé, et bon avancement dans tes projets.

Cunegonde1 (discussioncontributions)

Sont faits : 1744, 1747, 1748, 1749, 1761, 1789, 1816, 1891, 1892. A suivre

Le ciel est par dessus le toit (discussioncontributions)

Oui je vois que ça avance vite... big Merci

Cunegonde1 (discussioncontributions)

Bonjour, voilà, je m'arrête après le n° de 1923, les suivants ne peuvent pas être téléversés sur Commons et posent trop de questions de DP. Par ailleurs pour quelques textes j'ai vu qu'ils ne faisaient que quelques pages ou même quelques lignes, alors que le temps consacré pour préparer la mise en ligne d'un volume est assez conséquent je ne pense pas que le rapport travail/valeur ajoutée soit pertinent.

J'ai cependant trouvé une perle d'antisémitisme ayant pour victime Durkheim (qui avait pourtant parfaitement raison dans son analyse) dans un article d'Henri Mazel sur La sociologie Contemporaine Page:Mercure de France - Janvier-Mars 1899, Tome 29.djvu/676

Le ciel est par dessus le toit (discussioncontributions)

Merci Cunégonde, je sais bien que c'est beaucoup de boulot pour quelques textes parfois très courts, mais Hélène préfère qu'on importe une revue entièrement plutôt qu'on la découpe, alors je suis un peu pris entre deux feux. A savoir : tu n'es pas obligé de répondre favorablement à mes demandes. Si tu trouve que le rapport travail/valeur ajoutée n'est pas pertinent il suffit de me le dire et ne pas t'obliger. Pour Durkheim, je vais aller voir de ce pas.

Répondre à « Imports : Mercure de france »
Wuyouyuan (discussioncontributions)

Je suis en train de corriger le volume 13 dont vous avez refait l'OCR, très haute qualité. Les volumes 14, 15, 16 ont un OCR calamiteux, plus mauvais que le "full text" d'Internet Archive, résultat probable d'une conversion de PDF en DJVU qui s'est mal passée. Je pourrais faire comme pour le volume 12, match du "full text" mais ce n'est pas optimum. Si vous avez le temps, pouvez-vous faire comme pour le volume 13, vous aurez ma reconnaissance (rien de plus).

Cunegonde1 (discussioncontributions)

@Wuyouyuan. La reconnaissance c’est énorme, merci ! je termine un projet en cours et je m’y mets, reste à voir à partir de quelle source pour qu'elle ne soit pas trop mauvaise au départ (IA/Google/HT) ? je comparerai et prendrai la meilleure. Cela prendra un peu de temps car le traitement nécessaire à un résultat de qualité est assez long. Je suis très attaché à ce projet des 1000 nuits et 1 dont j’avais cherché vainement des fac-similé il y a quelques années, c’est donc avec plaisir que je le ferai. Je vous tiens au courant au fur et à mesure de la mise à disposition des volumes. PS : on peut se tutoyer si cela vous convient.

Wuyouyuan (discussioncontributions)

Si les fac-simile des Mille nuits et une nuit étaient hors d'atteinte jusqu'à l'année dernière, c'est que Joseph Charles Mardrus, l'auteur (le mot "traducteur" s'applique à peu près aussi bien à lui qu'à Pierre Louÿs son contemporain pour les Chants de Bilitis) est mort en 1949, à 82 ans, et n'était pas dans le domaine public.

A part ça, je crois que IA, descendant de la Public Library of India, est tout à fait acceptable, si j'en juge par le "full text". Les exemplaires de Google ne sont accessibles que des USA (avec un VPN pour moi) et apparemment pas mieux. Gallica renvoit à la "Bibliothèque Alexandrine".

Pas d'urgence. Je ne suis pas à la moitié du volume 13. A plus tard.

Cunegonde1 (discussioncontributions)

@Wuyouyuan, j’ai regardé, je vais repartir des images brutes d’IA qui me semblent une bonne base. J’ai mis un petit avertissement sur les tomes 14 à 16, pour éviter que quelqu'un commence la correction. Bonne soirée.

Cunegonde1 (discussioncontributions)

@Wuyouyuan Le volume 14 est prêt pour la correction. J’ai repris les images d’IA, qui en fait ne sont pas si bonnes que prévu (très faible résolution du scan d’origine (170 ppi), beaucoup de pétouilles nuisant fortement à la qualité de reconnaissance). J’ai gommé un maximum de pétouille, fait l’OCR et fait une pré-correction avec ma regex anti-scanilles, mais en préservant les coquilles. Quelques pages ont dû être reprises après coup, et n’ont pas bénéficié du même traitement aussi soigneux. Merci par avance de m'indiquer s’il reste des scanilles récurrentes afin d’améliorer mon outil. Je reste à disposition en cas de problème et passe au volume 15. Bonne correction.

Wuyouyuan (discussioncontributions)

Je viens de faire un sondage sur 9 pages du volume 14.

J'ai repéré des choses que j'avais déjà vues dans le volume 13: "sc" au lieu de "se", ailleurs "scs au lieu de "ses".; et surtout, il y a un problème avec le dernier caractère d'un paragraphe quand il est précédé d'un espace, donc isolé (cas des ponctuations comme ! ? » ) . A l'intérieur d'une page, il est renvoyé à la ligne suivante ; à la fin de la page il disparaît, voir "à" , 135e page.

Autrement, c'est de haute qualité, comme le vol. 13. La seule chose qui demande de l'attention, ce sont les alineas, disparus (mais il s'agit d'une ligne blanche manquante, pas d'un raccord de continuité du texte mal à propos, le retour à la ligne suivante est toujours là). Je n'ai rien vu qui associe le problème à autre chose.

C'est très reposant de mettre au point un texte aussi bien nettoyé.

Cunegonde1 (discussioncontributions)

Pour les sc et scs normalement je les chasse (il reste un sc p. 129, c’est tout.) Les problèmes d’alinea proviennent sans doute du fait que de temps en temps (670 occurences sur le T. 14) il y a une espace avant le saut de paragraphe. Est-ce très gênant ? Je ne sais pas comment l’empêcher automatiquement sinon, je suis obligé de tous les vérifier un par un. Sur une édition txt sur linux, les sauts de paragraphe sont préservés. Je ne sais pas trop comment régler ça. J’ai regardé d’autres livres que j’ai traité, et il n'y a pas ce problème.

Autre problème potentiel : compte tenu de la "saleté" du scan, je suis obligé de faire un traitement assez agressif des pétouilles. Il est possible que des caractères ":" soient effacés ; dans ce cas, cela laisse un large espace blanc, merci de me le signaler pour que je rectifie la page. Dans le cas du "Elle dit :" ou le : est manquant p. 299, il est également manquant sur la page originale ce n’est pas moi !

Wuyouyuan (discussioncontributions)

Il n'y a plus rie dont un correcteur attentif puisse se plaindre. Le piège de la disparition du dernier caractère (isolé) de la page n'en est plus un quand on le connaît. Je ne peux pas en demander plus. Aussi bien, la chute du dernier caractère en composition au plomb est fréquente, et on doit la suspecter quand le dernier caractère d'une ligne est un blanc.

Cunegonde1 (discussioncontributions)

Bonjour, @Wuyouyuan, le tome 15 est prêt à être corrigé. J’ai signalé en PDD 5 coquilles que j’ai repéré. Je vais refaire une passe pour vérifier qu'aucun signe de ponctuation n'est effacé sur les images du T. 14, puis je fais le T. 16. P.S : je n'ai pas trouvé d'endroit avec un caractère isolé disparu, comme indiqué plus haut. Cela m'aiderait à faire un diagnostic si tu pouvais m'indiquer une page où cela se produit. Je ne l'ai pas vu sur la p. 138 du T. 14.

Wuyouyuan (discussioncontributions)

Pour la disparition du dernier caractère d'une page s'il est isolé: Page:Le livre des mille nuits et une nuit, Tome 14, trad Mardrus, 1903.djvu/135 ("a") , Page:Le livre des mille nuits et une nuit, Tome 13, trad Mardrus, 1903.djvu/97 ( ": " ) Page:Le livre des mille nuits et une nuit, Tome 13, trad Mardrus, 1903.djvu/101 ( "!" ) (les pages sont corrigées, il faut aller voir la couche texte avec TL.) C'est systématique, mais le cas n'est pas si fréquent, donc ça ne consomme pas beaucoup d'énergie du correcteur prévenu. Mais c'est intéressant pour affiner le mécanisme.

Cunegonde1 (discussioncontributions)

Bon, j’ai vu, mais cela me laisse perplexe car sur le fichier texte brut que je crée en même temps que le djvu, pour y appliquer mes regex de vérification et de pré-correction, ces caractères sont bien présents. Je me demande si cela ne vient pas du robot de WS qui met en forme les pages lorsqu'elles sont chargées. Il faudrait peut-être poser la question sur le scriptorium. Par sécurité, j’ai revérifié les T. 14 et T. 15 par rapport à des éventuels effacements de caractères sur les FS. Il sont corrects de ce point de vue.

Cunegonde1 (discussioncontributions)

Bonjour, @Wuyouyuan, le Tome 16 est prêt. J'ai réglé le problème des caractères de ponctuation fantômes : le problème n'apparaît pas lorsque l'on fait un export d'un fichier texte depuis Abbyy 15 (c’est pourquoi je ne m'en était pas aperçu), mais est bien présent sur le fichier djvu ainsi que sur le fichier texte extrait du djvu. En revanche, il n'y a pas ce problème sur un export au format pdf. C’est bien étrange et agaçant au regard du prix du logiciel. Bref j’ai circonscrit le problème et le traitement par wikisource n'est absolument pas en cause, j'ai fait un mail à abby pour signaler le bug.

Seuls sont concernés les caractères de ponctuation espacés, mais pas les « » ni les lettres isolées a à, etc. Pour contourner le problème, j'ai supprimé l'espace avant le caractère concerné et cela fonctionne. En plus, sur WS, le caractère apparaît comme normalement espacé exemple page 34. J'ai mis quelques coquilles repérées en PDD du livre. Bonne correction.

Ps : Le 14 n’a pas ce problème et j’ai rectifié le 15 qui est maintenant correct.

Wuyouyuan (discussioncontributions)

Si on y pense, la pratique de Wikisource, une page de texte par page de fac-simile, a permis de faire émerger un bug qui a peu de chances de sortir si on crée un texte pour un volume. Et comme personne n'espère un OCR 100% exact, d'autres n'y auront pas fait attention. Faire des OCR nettoyés aussi finement que vous faites est du grand art. Je vais essayer de ne pas gâcher.

Cunegonde1 (discussioncontributions)

Merci pour vos commentaires sympathiques. Moi-même je n'y ai pas fait attention car j'ai une pratique marginale sur WS qui consiste à préparer intégralement mes textes sur le logiciel Sigil qui permet d'automatiser au maximum les tâches répétitives à l'aide d'expressions régulières (application de modèles, recherche de scanilles, etc.), puis je met en ligne des pages toutes corrigées et mises en page. Je part d'une édition txt qui n'a pas le bug du djvu.

J'ai repéré une scanille sur le 16 p. 105 et 106 : Amin au lieu de Amîn, je l'ai rectifiée une fois sur le 15 et elle n'est présente pas sur le 14.

Répondre à « Mille nuits et une nuit (suite) »