Ouvrir le menu principal

Discussion utilisateur:Cunegonde1

À propos de ce flux de discussion

La discussion précédente a été archivée dans Discussion utilisateur:Cunegonde1/Archive 1 le 2018-11-09.



MediaWiki message delivery (discussioncontributions)

RMaung (WMF) 9 septembre 2019 à 14:34 (UTC)

Répondre à « Community Insights Survey »
Hsarrazin (discussioncontributions)

Salut, tu as l'air de vouloir importer tout l'Enfer !! on pourrait peut-être envisager la création d'un modèle qui permettrait à la fois de facilement indiquer la chose, et le numéro sur le bouquin, et de catégoriser les textes... qu'en dis-tu ?

Ernest-Mtl (discussioncontributions)

Salut Hélène... moi je trouve l'idée super... pour avoir moi-même fait et commencé quelques livres de l'enfer où il était question de sujets plus portés vers la communauté LGBTQ+...

Cunegonde1 (discussioncontributions)

Bonjour Hélène, effectivement c’est un de mes projets. j’ai commencé après avoir importé et corrigé ''L’Enfer de la bibliothèque Nationale'' en 2017. Il existe déjà la catégorie ''Enfer de la bibliothèque Nationale'', mais si on peut améliorer la chose pourquoi pas. Au delà du thème qui est assez monomaniaque, sur le plan de la bibliophilie, c’est assez sympa de rechercher dans les sources, d’où viennent les bouquins et c’est également sympa à corriger et souvent assez technique. Sinon, y a-t-il un moyen de type script ou regex pour transformer les f erronés en ſ longs dans les livres d’avant 1790 ? [édit] J’ai oublié un truc, il y a plus d’un millier de livres dans l’enfer, je ne prétends pas importer et corriger '''tout''' l’enfer, même s’il est pavé...

EudeAimon (discussioncontributions)

Bonjour contributrice initiale *,

L'enfer quel bel invention s'il se trouve que sous ses pavés, les plages d'une bonne litterature. Mais qu'est-il en réalité cet enfer de la BN ?

Eude Le néophite

Tombé sur ce site par Pierre Louys (construction par dépit de ma propre nomenclature...) => Manuel de civilité => vous => l'enfer => merci

Cunegonde1 (discussioncontributions)
Bonjour EudeAimon :, les livres cotés Enfer à la Bibliothèque nationale de France sont des ouvrages ayant fait l'objet d'une interdiction par décision de justice, le plus souvent pour " atteinte aux bonnes mœurs à la morale ou à la religion ", parfois pour motif politique et enfin également pour cumul des deux motifs précédents (ie. Vie privée de Marie-Antoinette). Je n'ai aucun point de vue sur la qualité littéraire des œuvres en question ; mon projet est de contribuer à mettre à disposition gratuitement ces livres qui, par leur interdiction même, sont un reflet du mode de pensée de la société française au moment où l'interdiction a été prononcée.
EudeAimon (discussioncontributions)

Bonsoir forcenée* de la liberalisation littéraire.

Merci pour ces précisions. J'ai pu trouver la bibliographie méthodique de GA ce qui me fera à mes heures perdues un point d'entrée (après celui que vous proposez). Votre réflexion me vibrille par le prolongement qu'elle peut avoir jusqu'à aujourd,hui censure autocensure.. Peut-etre que juger est déjà participer d'une certaine censure. Mais je suis certain que vous avez un avis que vous pourriez partager sur les livres contribués qui vous ont parus les plus sensibles, humainement, peauéthiquement ?

Merci encore pour votre réponse et vos contributions dont je profite grandement.

  • relatif a la somme de vos apports. J'imagine que les OCR ne sont pas capable de tout transcrire, et envisage aussi le plaisir d'entrer à pieds dans les pas de ces écriés du passé.
Ernest-Mtl (discussioncontributions)

Ah moi qui étais tout content de trouver enfin les Onze mille Verges sur Gallica, depuis le temps que je le cherchais partout pour faire l'appariement du texte qu'on avait, tu l'avais déjà importé en octobre dernier... Merci!!!

Répondre à « Enfer de la BN »
Zeroheure (discussioncontributions)

Bonjour, tu termines les chapîtres de L'Enchanteur... en essayant de reproduire la mise en page en triangle. Mais ça passe assez mal parce que la phrase supérieure est mal justifiée. Or cette fin de chapître en triangle est une élégance typographique courante à l'époque — par exemple Cendrars qui s'occuppe des éditions du Sans Pareil la met partout. Je pense donc qu'il ne faut pas la refaire, ce n'est pas élégant à l'écran. Qu'en penses-tu ?

Cunegonde1 (discussioncontributions)

Bonjour, et merci de ta remarque. Est-ce que c’est mieux comme rectifié ? Si ça ne va pas, tu peux supprimer la mise en page spéciale en validant.

J’essaye toujours de respecter les mises en page originales, c’est souvent difficile, voire un vrai défi (comme pour les Calligrammes du même auteur) et parfois le résultat est décevant ; surtout que les supports de lecture sont multiples.

Zeroheure (discussioncontributions)

Oui et non. Si tu changes de navigateur web, de police, de taille d'écran, de taille de caractères, etc. ça ne va plus (ligne précédant le triangle trop courte, mots qui sautent à la ligne). Et c'est normal : trop de paramètres varient pour qu'on puisse reproduire la typographie manuelle imprimée qui joue de l'espace entre les caractères et les mots pour faire un beau triangle parfaitement aligné. C'est en fait plus difficile que les Calligrammes (que je valide en parallèle — tu y a fait un super boulot d'ailleur). Bref, je trouve ça nuisible à la lecture et pas très beau. Autant l'éviter.

Cunegonde1 (discussioncontributions)

Ok, alors, vire le à la validation.

Pour les calligrammes, la variable des navigateurs et des supports de lecture (mac/windows/linux/ios/android) ainsi que la taille de l’écran est encore plus frappante : j’ai utilisé des combinaisons de techniques : wikitexte simple, css pur et dur et svg. Le résultat est parfois sympa et fonctionne presque partout comme dans Il pleut, parfois c’est plus aléatoire malgré les tests sur les écrans cités ci-dessus sauf widow que je n’ai pas.

Cordialement.

Cunegonde1 (discussioncontributions)
Répondre à « L'enchanteur pourrissant »

Your feedback matters: Final reminder to take the global Wikimedia survey

1
MediaWiki message delivery (discussioncontributions)

WMF Surveys, 20 avril 2018 à 00:44 (UTC)

Répondre à « Your feedback matters: Final reminder to take the global Wikimedia survey »

Reminder: Share your feedback in this Wikimedia survey

1
MediaWiki message delivery (discussioncontributions)

WMF Surveys, 13 avril 2018 à 01:34 (UTC)

Répondre à « Reminder: Share your feedback in this Wikimedia survey »

Share your experience and feedback as a Wikimedian in this global survey

1
MediaWiki message delivery (discussioncontributions)

WMF Surveys, 29 mars 2018 à 18:36 (UTC)

Répondre à « Share your experience and feedback as a Wikimedian in this global survey »
Hsarrazin (discussioncontributions)

Bonjour,

En voulant consulter La Nouvelle Justine, j'ai constaté qu'il avait été redirigé vers Justine et Juliette, qui regroupe les 2 oeuvres en une seule.

D'une part, c'est un peu volumineux (l'extraction epub n'est toujours pas terminée au bout d'une 1/2 heure), mais surtout, c'est un peu gênant, car il s'agit de 2 romans distincts, ce que, d'ailleurs, l'éditeur précise bien. Il est plus conforme aux habitudes de ws de faire une page principale par oeuvre, et non pour une édition regroupant plusieurs oeuvres.

J'ai donc commencé à refaire le découpage entre La Nouvelle Justine et L’histoire de Juliette, avec renommage en conséquence, et le regroupement ici.

Qu'en dis-tu ? Je continue ?

Cunegonde1 (discussioncontributions)

Bonjour,

Je m'en remet à toi, car effectivement il s'agit de deux œuvres distinctes, je les ai regroupées pour mettre en évidence le lien existant entre elles et le fait qu'il s'agit quand même d'un tout cohérent. Les difficultés pour l'export epub viennent de deux points :

1/ Les illustrations sont nombreuses.

2/ l'histoire de Juliette ne comporte pas de chapitres elle n'est découpée qu'aux changements de volumes ce qui pose problème pour l'export. Je pensais y revenir pour faire un faux chapitrage (comme je l'ai fait pour certains très longs chapitres de l'histoire de l'affaire Dreyfus de Joseph Reinach car les notes ne fonctionnaient pas).

Si tu souhaite améliorer le rendu final cela ne me pose aucun problème. Dès lors que le contenu est présent (avec les gravures) ce qui est rare et ne se trouve pas ailleurs. En tout cas merci pour ce que tu pourras faire.

Hsarrazin (discussioncontributions)

Merci pour ta réponse

pas de problème pour le contenu : je n'ai rien changé au contenu que tu as créé, j'ai juste recomposé les parties que tu avais créées, en les renommant au niveau de chaque roman. ça m'a permis de créer des pages d'orientation comme Justine (Sade).

Si tu veux redécouper L’histoire de Juliette, il suffira de rattacher les chapitres sous la page principale. :)

Je suis actuellement en train de cataloguer les textes de wikisource dans wikidata, et je suis ainsi tombé sur ces oeuvres, chaque oeuvre et chaque édition ayant son propre élément sur wikidata, c'est parfois un paquet de noeuds à démêler :)


Merci pour ton boulot... �

Répondre à « Justine et Juliette »
Seudo (discussioncontributions)

Bonjour,

Quelques remarques après avoir testé partiellement avec Notepad++ :

- je crois qu'il faudrait mettre un \b avant et après "parle" (pour ne pas matcher des mots tels que "parlement" et les formes conjuguées). De même, \b permettrait de rendre l'expression plus robuste (c'est mieux qu'un espace pour délimiter un mot)

- attention aux negative lookbehind (?<! : beaucoup de moteurs de regexp ne leur permettent pas d'avoir une taille variable, comme c'est le cas dans "(?<!travail|sérail|détail)" qui peut avoir 6 ou 7 lettres. Tu as donc de la chance si ça marche avec ton éditeur de texte, mais pour beaucoup de gens (dont moi avec Notepad++, qui se base sur les regexp de Perl), ça ne fonctionnera pas.

En tout cas bravo pour cette initiative.

Cunegonde1 (discussioncontributions)

Merci beaucoup pour tes encouragements. Je suis plutôt débutant en regex avancé et surtout, j'ai découvert que l'on pouvait les combiner et les enchaîner sans problème. Je commence juste utiliser les negative lookbehind et lookahead, qui sont très puissantes et permettent d'éviter nombre de faux positifs. Je vais multiplier les tests sur ce que tu as repéré en utilisant également Notepad++ avec wine (j'utilise normalement Sigil sous linux).

Pour les espaces, il y a en début et en fin de la regex une séquence d'espace et de ponctuation, mais j'ai essayé ta suggestion d'encadrer parle avec des \b et cela ne pose pas de problème, je vais le généraliser quand nécessaire.

Pour ce qui me concerne, les faux positifs ce sont surtout les formes conjuguées qui peuvent avoir des formes correspondant à des mots non conjugués. Par exemple pour traquer les a sans accent, je cherche pour les exclure les verbes à partir de leur terminaison, mais cela match aussi a encore qui est un faux positif. L'équilibre entre trop de match et pas assez est assez délicat. Cela dit j'ai repassé l'ensemble des mes contributions et cela m'a permis de corriger pas mal d'erreurs.

Répondre à « Expression régulière pour coquilles »
Ernest-Mtl (discussioncontributions)

Salut! J'ai remarqué qu'il manquait les volumes 4, 5 et 6 de cette série. Je suis en train de les préparer pour les mettre en ligne.

Cunegonde1 (discussioncontributions)

Bonjour, @Ernest-Mtl merci de ta proposition.

Parallèlement avec la correction du volume 3, Je suis déjà en train de travailler sur le volume 4 dont l'OCR est de très mauvaise qualité. J'ai essayé de l'améliorer (avec tesseract, ne disposant pas d'abby) sans succès notable ; les autres versions (Gallica et Google sur IA) ne sont pas meilleures. Il y aura beaucoup de recopie sur ce volume, de nombreuses lignes étant totalement illisibles pour l'OCR (mais heureusement pas pour un humain). Les volumes 5 et 6 sont tout à fait corrects. J'envisageais d'uploader les volumes restants au fur et à mesure de l'avancement de la correction, notamment parce que j'ai mis au point une méthode d'automatisation pour la création des sommaires de chaque chapitre. Mais si tu souhaites faire cette mise en ligne, cela ne pose pas de problème au contraire. De toute façon, j'ai prévu de poursuivre la correction de l'ensemble. Si tu décide de mettre en ligne la suite, je te conseille de poursuivre avec la version d'IA sur laquelle nous avons commencé avec @Jerome Charles Potts, qui a mis en ligne le 1er volume et défini le protocole éditorial, je n'ai fait que poursuivre avec les volumes 2, 3 et 7.

Ernest-Mtl (discussioncontributions)

ah ok... je vais vérifier la qualité de l'OCR sur le volume 4 que mon ABBYY a fait et je te tiens au courant...

Ernest-Mtl (discussioncontributions)

rebonjour... Le volume 4 que j'ai pris sur IA a un OCR adéquat... loin d'être parfait, mais je crois que le résultat serait un bon départ pour faire ce volume... Alors si tu me donnes le feu vert, je le mettrai en ligne... :)

Cunegonde1 (discussioncontributions)

Ok, s'agit-il de celui-ci ? https://archive.org/details/histoiredelaffai04reinuoft Si c'est le cas, c'est le meilleur que j'ai trouvé, c'est donc ok pour la mise en ligne. Il est cependant de très mauvaise qualité sur les notes de bas de page (très nombreuses, en moyenne 150 à 200 par chapitre).

Je vérifierai de nouveau la qualité de l'ocr, mais s'il n'est pas significativement meilleur que le mien, pour la correction, je continuerai à travailler sur l'ocr que j'ai fait avec tesseract, car j'ai construit une regex de recherche de scanilles courantes avec tesseract.

Je précise que je travaille toujours hors ligne avec sigil qui permet d'automatiser de nombreuses commandes et mises en forme et que je met en ligne le texte corrigé chapitre par chapitre.

En tout cas grand merci de t'intéresser à ce projet passionnant.

Ernest-Mtl (discussioncontributions)

Oui, c'est bien de celui là dont il est question. Je te laisse vérifier la qualité de tesseract...

Je te laisse le soin de juger par toi-même pour la qualité de l'OCR de ABBYY... Voici les notes de bas de page 7, à l'état brut. Ce n'est pas parfait, mais je le trouvais acceptable.

to Voir l. 1er, r>r>o. — Bien que cet état signalétique lût anté¬
rieur de quelques jours à la dégradation, on l'eût modilié si le
condamné avait lait des aveux le matin de la parade, plus d'un
mois avant d’être embarqué pour l ile du Diable.
 2) Note manuserile du \ juillet il></>. f.asa., II. i'|i). — De
même, Lebrun-Henault (Cuss-, I, 27G  ; Mennes, III, Ni .
 (3) «  Le capitaine Lebrun-Henaull m’a apporté aujourd liui,
h deux heures trois quarts,... etc.  »
 41 Cass., I, 27G. Lebrun-ltenaull  : «  Quelques jours après, je
crus devoir détruire celte Feuille que je ne jugeai plu- utile à
conserver.  »— De même, à Demies III. 7G et 81,.

Cunegonde1 (discussioncontributions)

Bonjour, un exemple de ce que j'appelle mauvaise qualité p. 558 ocrisé avec tesseract  :

(ij boiicliei' cl les jiulirs ineiiiln'os du liuroau (moins Bar-
thou), Aiicol, AurlilTretl, Cochery, Charles Fcny, le liculotiaiiL
coluuel Cuéiiii, KtM•j^•^Ml cl Aiiloinc P(M'i-ior.
(•2) Jounuil dis Ih'bdls du i<) ft^vrifr iScjcj.
(3) /iV'/ro de l'arix : « Si uno autre raiidichilurc répul)h'<-aiiie
<*!st o|>|toH6c .'"• M. Loul)i'l, soil avant la sivuicc du Congrès
Hoil après son Duvcriurc, M. MtMiiu' rcpriMidia s.i liluMlr d'ac-
tion l'I laisMora faire hch amis. »
'.f„ Il d«»nna, le j.j. sa démission de [.résident du t,Moupe, ol
lui rempltie»'", le ji, par Méline.

Ta version est-elle celle directement issue d'IA ou bien tu l'as refaite avec ton Abbyy personnel ?

Ernest-Mtl (discussioncontributions)

Salut... Je refais toujours systématiquement l'OCR avec ABBYY, quelle que soit la source de mon facsimilé car ABBYY gère mieux les langues autres que l'anglais mieux que tous les autres OCR que je connaisse... Voici ce que j'ai moi à la page 558:

(1) Bouclier el tes autres îiiouiltres du bureau moins Üar-
lliou), Alicot, AudilVred, Cochery, Charles l'erry, le lieuleu.iiiL
colonel Guérin, Kerjô^u et Vnloiiie Perrior,
 ('j.) Journal (1rs Débats du ip février
 (3) /iWiii tic Paris  : •< Si mie nuire candidature républicaine
est opposée à M. Loubel, soit avniil la sé;uie«  do Clmurè.s
ï*oi1i aptes son 011 verlme, M. Méline reprendra sa libel lé d'ac¬
tion et laissera faire ses amis,  »
 \ il doni 1, le ]<j, sa démission de président du ijroiipe, el
lut remplacé, le* ■_>. 1, par Méline.
 (•>) Déclarations de Mclinc et de tlarlbou dans le 7'vnïfjs nnli-
dulé, du 1 y.

Cunegonde1 (discussioncontributions)

C'est effectivement nettement meilleur que le même passage avec tesseract. Avec une bonne connaissance du contexte (noms propres etc.), cela permet de faire une première passe de correction rapide semi automatique : confusions l/t par exemple, sans regarder le fac-similé.

Je ne sais pas si abbyy fonctionne sous linux et d'autre part c'est assez cher. Travaillant sous Linux depuis des années, je me suis habitué à d'excellents logiciels gratuits (suite pdf2djvu notamment).

En conclusion je te remercie par avance si tu peux mettre en ligne les 3 volumes manquants. Je récupérerai la couche texte, pour travailler dessus offline.

Ernest-Mtl (discussioncontributions)

Je ne sais pas pas s'il fonctionne sous Linux. Nous avons les deux systèmes ici, Windows et Linux mais j'utilise principalement Windows à cause de ABBYY. À la limite il y aurait wine qui te permettrait probablement de rouler ABBYY sous Linux.

Je vais relancer ABBYY car je suis en discussion avec eux pour qu'ils nous accordent 25 licences gratuites ; si c'est positif, je t'en enverrai une.

Pour les volumes, je vais mettre le 4è un peu plus tard en journée car je dois partir dans pas très longtemps pour le gym. À mon retour, je m'en occupe. Si tu peux me dire quels facsimilés des tomes 5 et 6 tu désires, je pourrai les faire également à mon retour.

Cunegonde1 (discussioncontributions)

Merci pour ta proposition de licence, si c'est possible ; il est effectivement probable que cela fonctionne sous Wine.

pour le 5e volume c'est le : histoiredelaffai05reinuoft et pour le 6e : histoiredelaffai06reinuoft . Merci encore pour ton aide sur ce projet. J'ai l'habitude de travailler en solo, mais la collaboration (aucun sous-entendu historique ;+)) c'est très sympa aussi.

Ernest-Mtl (discussioncontributions)
Cunegonde1 (discussioncontributions)

Merci, je termine aujourd'hui les quelques pages du volume 3 et je passe au volume 4.

Je profite de cette discussion pour te poser une question : j'ai constaté que je ne peux pas valider l'export epub pour ces livres, comme pour d'autres, dont les chapitres comportent un nombre de pages trop important. Au delà d'un certain nombre de pages que j'ignore, les liens des notes ne fonctionnent pas. L'export epub est alors sans intérêt. Est-ce un problème qui est déjà remonté dans la communauté ? Y a-t-il un "truc" pour contourner ce problème ?

Jusqu'à présent, je retravaille ces livres en imposant une découpe des fichiers html à l'endroit que je souhaite et non de manière aléatoire, pour les rendre compatibles (mais cela sert uniquement à mon usage personnel, ce qui est dommage).

Ernest-Mtl (discussioncontributions)

peux-tu me donner un exemple? J'irais voir...

Cunegonde1 (discussioncontributions)

je viens de passer le volume 2 en bon pour export pour que tu puisses tester : dès le 1er chapitre, les notes se trouvant en début de chapitre ne fonctionnent pas et celles qui se trouvant à la fin du chapitre fonctionnent. Plus précisément : le chapitre est scindé en 2 fichiers html au milieu de la page 111, les liens vers les notes de 1 à 398 situées sur le premier fichier (c1_Histoire_de_l_Affaire_Dreyfus_T2_1.xhtml) ne fonctionnent pas, alors que les liens des notes 399 à 417 situés sur le 2e fichier (c1_Histoire_de_l_Affaire_Dreyfus_T2_1_2.xhtml) fonctionnent.

Pour mon usage personnel, il est très facile de réparer problème en fusionnant les fichiers pour reconstituer un chapitre d'un seul bloc. Mais pour les utilisateurs de wikisource, je ne sais pas comment on peut imposer un paramètre de préservation de l'intégrité des chapitres à wsexport.

Répondre à « Dreyfuss »

Share your experience and feedback as a Wikimedian in this global survey

1
MediaWiki message delivery (discussioncontributions)
  1. Le principal objectif de l’enquête est d’obtenir des retours sur le travail actuel de la Fondation Wikimédia, sans stratégie à long terme.
  2. Questions légales : pas d’achat nécessaire. Vous devez avoir l’âge de la majorité pour participer. Soutenu par la Fondation Wikimédia (Wikimedia Foundation) située au 149 New Montgomery, San Francisco, CA, USA, 94105. Se termine le 31 janvier 2017. Le don est annulé en cas d’infraction. Cliquez ici pour lire les règles du concours.
Répondre à « Share your experience and feedback as a Wikimedian in this global survey »
Retour à la page d’utilisateur de « Cunegonde1 ».