Sujet sur Discussion utilisateur:Cunegonde1/Structured Discussions Archive 1

La Vaudère, textes et corrections

28
Tötössy (discussioncontributions)

Bonjour, je suis un béotien sur wikisource, mais j'ai vu que vous aviez maintes fois contribué à la page de La Vaudère, d'où mon message.

Je travaille sur une bibliographie générale touchant cet auteur et j'aimerais contribuer avec des scans de 3 oeuvres d'elle que je possède (à partir d'achats personnels, apparemment introuvables ailleurs sur Internet, j'ai cherché). Je n'ai rien compris à la procédure d'importation et même le programme pour convertir en djvu ne fonctionne pas chez moi... Les oeuvres que j'ai sont: "La sorcière d'Ecbatane" (1906); "Les sataniques" (1898); "La guescha amoureuse" (1902). Je peux fournir les pdfs très propres, faits à partir de scans issus d'un passage par ScanTailor (sans OCR).

Sur sa page je signale aussi la possibilité d'ajouter les fac simile de "La cité des sourires" (https://books.google.fr/books?id=Y-k9AQAAMAAJ), et d'"Ambitieuse" (https://mdz-nbn-resolving.de/details:bsb11817907). De plus, "Le droit d'aimer" est reparu sous le titre "Le péché de Simone" dans le "Journal-roman" (https://gallica.bnf.fr/ark:/12148/bpt6k14128031/f371.item).

Aussi, question: comment indiquer que deux oeuvres titrées différemment sont en fait une seule et même? Le cas se présente plusiurs fois pour La Vaudère: "Folie d'opium" n'est pas un recueil de nouvelles comme écrit mais correspond totalement au roman "Les androgynes"; de même "L'invincible amour" = "Ambitieuse". (En passant, les dates sont très erronées sur la page, "Folie d'opium" date de 1911 par exemple, non de 1900).

Je ne sais pas quelle est la politique de wikisource pour les pré-originales en feuilleton, mais plusieurs de ses romans et nouvelles (la grande majorité voire la totalité de ses nouvelles en fait) sont récupérables ainsi ("Mortelle étreinte", "Rien qu'amante" etc.).

Enfin, bientôt je pourrai fournir le texte corrigé du "Mystère de Kama"; je fais une collation des deux versions disponibles (1901 sur archive.org et 1910 sur Gallica); il sera aisé de faire une décollation pour obtenir le texte exact de chacune des versions.

Pardon pour ce déballage, et excuse si l'endroit est inapproprié.

Cunegonde1 (discussioncontributions)

Bonjour @Tötössy Il n'y a pas de problème pour rédiger ce message sur ma page de discussion, cependant, et loin de là, je ne suis pas seul à m'intéresser à cette auteure. Il serait ainsi intéressant que vous copiez votre message dans la page de discussion de Jane de la Vaudère.

  • Pour la question sur les dates des œuvres, vous pouvez les modifier sous condition de sourcer les dates que vous modifiez.
  • Pour les prépublications en revues, je ne sais pas quelle est la politique en la matière, mais personnellement, je trouve que ces scans sont souvent de mauvaise qualité et difficile à traiter de façon correcte.
  • Sur les scans. Il est préférable d'importer des fichiers au format djvu, plutôt que pdf. En effet seuls les djvu permettent de copier le texte automatiquement sur les pages avec un robot appelé match et split (c'est intéressant si vous corrigez le texte hors-ligne).
  • Sur les versions, il existe un modèle {{voir éditions}} qui permet de recenser plusieurs éditions d'un même ouvrage.
  • Pour les conversions au format djvu, vous trouverez des pistes sur l'aide Aide:Créer_un_fichier_DjVu ou ainsi que sur ma page de présentation Utilisateur:Cunegonde1
  • Pour le mystère de Kama, la politique de wikisource est de ne pas mixer les éditions, à l'inverse il est possible d'importer deux éditions distinctes d'un même ouvrage, si les variantes sont significatives et intéressantes.

J'espère avoir répondu à vos questions.

Tötössy (discussioncontributions)

Merci pour ces réponses. Je crains de n'avoir pas tout digéré de son contenu (par exemple, le modèle "voir éditions", je ne saurais pas utiliser cela).

Concernant l'importation: le programme PdfToDjvu GUI ne fonctionne pas chez moi; il affiche le message de succès mais ne crée tout simplement pas le fichier djvu. J'ai converti "La sorcière d'Ecbatane" en ligne cependant (mais la table des matières que j'avais faite sur le pdf a disparu). Mais on doit importer seulement sur Commons donc, pas sur wikisource?

Comme source pour une date d'édition, est-il satisfaisant de fournir par exemple un lien vers Retronews, vers une annonce de parution? La date du numéro de journal ferait foi. C'est ainsi que j'ai procédé pour dater assez précisément les nombreux romans sans date.

Ok pour les pré-originales.

Pour le Mystère de Kama, je ne proposais pas de mixer les éditions mais indiquais qu'il serait possible d'avoir le texte de chacune des versions. Cependant les différences ne sont pas significatives pour la grande majorité: quelques majuscules, quelques coquilles, quelques signes de ponctuation enlevés ou ajoutés...

Cunegonde1 (discussioncontributions)

Bonjour @Tötössy pour pdftodjvu, je n'utilise pas le GUI, mais la version en ligne de commande très rapide et efficace. J'avais testé le GUI, qui fonctionne en fait, mais on n'est pas informé du travail réalisé en tâche de fond, il suffit d'être très très patient et après un grand moment, on voit arriver le fichier djvu. Vous pouvez faire un test avec un pdf réduit à quelques pages.

Les convertisseurs en ligne ne sont pas toujours fiables et produisent souvent des fichiers excessivement lourds.

Pour la table des matières, aucune importance, puisqu'on en recrée une à partir du texte brut avec une syntaxe spécifique (wikicode).

Pour la source de la date d'édition, il faut distinguer la date de l'édition de l'exemplaire, qui est généralement indiquée soit sur le grand titre soit sur la page où sont indiqués les droits d'auteur ou sur la page de l'imprimeur, de la date de première parution (qui peut-être récupére sur tout support fiable, dont retronews évidemment). Sur la page de l'auteur on indique la date de première publication (souvent en revue) et la date de l'édition du livre que l'on importe.

Quand on a le choix entre plusieurs éditions similaires d'un même ouvrage et qu'il n'y a pas de variantes justifiant la présence des deux versions sur wikisource, l'usage est de choisir la dernière ayant été éditée du vivant de l'auteur, ou celle portant la mention "édition définitive". Ou bien plus prosaïquement celle dont le fac-similé est le meilleur, offrant les chances du meilleur OCR.

En tout cas bon courage pour vos début d'importateur, les débuts sont effectivement difficiles, mais nous en avons besoin. N'hésitez pas à demander conseil tant sur le côté réalisation du fac-similé que sur les aspects propres à wikisource.

Enfin désolé pour la confusion de mes explications, je pense être un technicien correct, mais un piètre passeur de savoir.

Tötössy (discussioncontributions)

Bonjour, Cunégonde1. Je n'ai pas du tout l'habitude d'utiliser les lignes de commande. Mais puisque l'effet devrait être le même, il y a un problème soit avec le programme soit avec mon pdf. J'ai essayé avec un autre pdf, d'une page, et ça a marché (mais l'image dans le djvu était de mauvaise qualité). D'ailleurs il y avait l'écran de commande affiché pendant l'opération, et j'ai pu lire le progrès de la conversion. Avec mon pdf de "La sorcière d'Ecbatane", rien ne se passe, seulement le message de succès s'affiche moins d'une seconde après le début de l'opération, et ce même quand je demande de convertir seulement la première page... Savez-vous où je peux demander de l'aide sur ça?

Sinon, j'ai mes png d'origine (excellente qualité, 1 bit), c'est peut-être plus simple de créer un djvu directement à partir d'eux.

Dans les livres dont on parle, très souvent la date n'est pas indiquée (une pratique irritante du début du XXe siècle). En tout cas, j'ai posté un message concernant les dates sur la page même de La Vaudère.

Ce qu vous dites résout la question du "Mystère de Kama". Il n'y a que la première édition qui est parue du vivant de l'auteur, la 2e (celle en 2 colonnes) est de 1910, donc techniquement posthume.

Cunegonde1 (discussioncontributions)

@Tötössy L'avantage de scantailor, c'est qu'il comprime les fichiers images (personnellement dans la quasi totalité des cas j'exporte en noir et blanc 300 ou 600 dpi, suivant la qualité du scan.) Vous pouvez essayer la conversion directe depuis le png, mais si les images sont en couleurs ou niveaux de gris, le fichier risque d'être énorme, or commons n'accepte que les fichiers inférieurs à 100 Mo pour les utilisateurs non autopatrouillés et sur wikisource, cette limite est absolue pour tout le monde. D'où la nécessité de maîtriser la taille des fichiers.

Tötössy (discussioncontributions)

Merci pour ces informations supplémentaires. Je fais les choses dans les règles, 1 bit pour les pages avec texte. J'utilise d'autres outils pour convertir entre les formats, etc. Cela donne des fichiers très petits.

J'ai essayé aujourd'hui le programme Djvu Solo pour créer un djvu à partir de mes png... Surprise, il ne connaît pas le format png! J'ai donc converti vite fait ces png en tif et... surprise, Djvu Solo plante dès que je veux ouvrir un tif! Voilà donc deux programmes pour créer des djvu qui ne fonctionnent pas chez moi... Je vais demander de l'aide.

EDIT: J'ai compris d'où venait mon problème. J'ai posté ici: https://fr.wikisource.org/wiki/Sujet:Yfz6prhgeeb4wbiq . J'ai pu créer le dvju "La sorcière d'Ecbatane".

Maintenant, j'aurais des question sur le téléversement sur Commons (je n'ai pas compris comment importer sur wikisource lui-même). Je n'ai accès qu'au formulaire, non à l'Upload Wizard. Dans la rubrique de la description "Source", puisque le scan vient de moi-même, dois-je dire "oeuvre personnelle"?

Dans "Auteur du fichier", dois-je indiquer moi-même ou La Vaudère? Pour la date, je suppose que c'est la date de l'oeuvre, non de la création du scan.

Partant, dans "droits de brevets", que dois-je sélectionner: "This file is my own work and I agree to the WMF Patent License" ou "This file is not my own work and I agree that use of this file and any objects depicted in the file will not knowingly or recklessly infringe any patents." ?

Cunegonde1 (discussioncontributions)

Bonjour @Tötössy Je ne connais pas Djvu Solo, mais j'ai déjà eu des échecs avec des pdf issus de png avec couche alpha. Dans ce cas, je supprime la couche alpha avec une commande de ImageMagick (sous Linux) find . -name "*.jpg" -exec convert "{}" -alpha off "{}" \; on peut changer . jpg par .png ou .tif, et en général cela résout les problèmes.

Pour la création des djvu avec couche texte, vous pouvez voir les outils que j'utilise avec succès depuis presque 10 ans et 16000 imports sur Commons sur ma page de présentation Utilisateur:Cunegonde1.

  • Lorsque le scan est issu d'un ouvrage dans le domaine public aux USA (publié il y a plus de 95 ans), il doit être importé sur Commons. L'upload wizard se trouve en suivant ce lien : UploadWizard
  • Pour faciliter l'import vous pouvez utiliser la méthode traditionnelle en suivant le lien et remplacer le Upload traditionnel et remplacer la fiche information par le modèle {{Book}} plus complet et qui à l'avantage avec le paramètre Wikisource=s:fr:Index:<nowiki>Yfu1k7o165oqvufw de créer un lien vers wikisource, qui facilite la création de la page index du livre.
  • L'auteur est La Vaudère et non vous, la date est celle de l'édition de l'ouvrage physique que vous avez dans les mains et non de l’œuvre qui a pu avoir des publications précédentes,
  • Dans le champs Droits, n'étant pas l'auteur de l'ouvrage, il faut indiquer dans ce champ le nom de l'auteur : les permissions pour La Vaudère sont {{pd-old-auto-expired|1908}} pour comprendre les permissions sur Commons voir Droits par territoire et voir ce qui en est pour la France. Sur commons, le livre doit à la fois être dans le domaine public aux USA et dans le pays d'origine du livre ou de l'image.
  • Dans le champs "Source" vous pouvez indiquer "personnal collection" et Collection personnelle sur la fiche Livre de Wikisource.

Si l'une de ces explications ne vous paraît pas claire, n'hésitez pas à demander des explications complémentaires.

Bon courage pour ces débuts dans les arcanes de Wikimedia.

Tötössy (discussioncontributions)

Bonjour, Cunegonde1. Merci pour les explications. J'ai plus ou moins compris comment remplir le formulaire d'importation. Quelques questions restantes:

  1. Que mettre dans "Pageoverview="? Le livre comporte xix+255 pages numérotées, ainsi que la couverture et à la fin 2 ou 3 pages de réclames.
  2. Que mettre dans "Image page="? Le livre comporte une couverture non illustrée, qui n'est évidemment pas numérotée (je n'ai d'ailleurs quasiment jamais vu de couverture numérotée avec le reste des pages, où que ce soit...).
  3. Comment je détermine le lien avec la page livre sur wikisource? Ou alors le paramètre que vous m'indiquez est à coller tel quel? (Celui-ci: Wikisource=s:fr:Index:<nowiki>Yfu1k7o165oqvufw)

Océriser directement un djvu est possible? Puisque j'ai créé le djvu à partir des tifs et non à partir du pdf océrisé. L'outil avec Tesseract que vous citez semble fait pour les pdfs.

Pardon, mais j'ai aussi des questions de béotien absolu:

  1. La double accolade sert comme délimiteur de modèles, c'est ça? ( {{ )
  2. Comment faire le rectangle de citation?
  3. Comment citer l'utilisateur pour qu'y ait un lien? Voire comment créer le lien?

J'ai essayé de chercher dans l'aide mais chaque modèle semble avoir sa propre page et il y en a des centaines...

Enfin, pour cette histoire de png avec alpha. Si le png est en 1 bit, donc 2 couleurs, l'alpha ne devrait pas par définition exister, si? Dans mon outil, quand l'option d'output est png, il n'y a le choix qu'entre 24-bits, 256 couleurs ou NB.

Cunegonde1 (discussioncontributions)

@Tötössy

  1. Je laisse vide Pageoverview=
  2. Je me la page Grand-Titre (la plupart du temps différente de la couverture) dans Image page =
  3. je pense qu'il y a eu une erreur avec le lien il doit être strictement |Wikisource = s:fr:Index:{{PAGENAME}} pour que cela fonctionne

Pour l'OCR l'outil que j'utilise fonctionne effectivement avec les pdf, mais il est extrêmement rapide et performant car on peut définir le nombre de coeurs affectés à la tâche (j'ocrise un livre de plus de 500 pages en moins d'une minute) avec le paramètre j0. Je transforme ensuite le pdf océrisé en djvu avec le logiciel pdf2djvu, de la suite djvulibre avec la commande pdf2djvu -o MonFichier.djvu -j0 --fg-colors=black --dpi=300 --lines  MonFichier.pdf, qui est également très performante.

Pour les questions de béotiens:

  1. la double accolade sert bien à délimiter les modèles. La liste et les cas d'utilisation des modèles se trouvent dans l'aide. D'ailleurs, peut-être devriez-vous consulter les différents tutoriels présents dans l'aide et si vous le souhaitez demander à être parrainé pour faciliter vos débuts. L'apprentissage de l'édition sur wikisource est en effet assez difficile.
  2. je ne comprends pas ce que vous nommez "rectangle de citation", si c'est comme dans cet exemple, il suffit d'entourer le passage à mettre en exergue avec les balises <code></code>
  3. pour citer un utilisateur, vous avez sans doute dans votre fenêtre de réponse au message un petit bonhomme avec un + au dessus, il suffit de cliquer et sélectionner l'un des noms proposés.

Pour la question des couleurs, je ne suis pas compétent pour vous répondre, j'utilise la plupart du temps le noir et blanc qui est en général mieux reconnu par l'ocr (à condition d'avoir gommé les "pétouilles" avec Scantailor.

Tötössy (discussioncontributions)

Merci encore. Je demanderai en effet à être parrainé pour ne plus vous embêter. Quant à lire les pages d'aide, je le fais petit à petit, c'est intimidant autrement.

J'ai constaté que les projets wiki sont très orientés Linux. Je suis sur Windows, qui plus est sur une version censément aujourd'hui "non supportée", donc pour l'utilisation des outils de Linux, je dois à chaque fois chercher quelle est la dernière version compatible, etc. Donc même installer un truc comme OCRmyPDF est une tâche compliquée (il prérequiert Python, Tesseract et Ghostscript, dont pour les 2 derniers je ne sais pas quelle version est compatible avec mon OS).

Je vais peut-être juste "acquérir" ABBYY, qui semble prendre en charge les djvu.

Je n'ai pas de petit bonhomme, j'ai dû désactiver ça dans les options sans m'en rendre compte. J'essaie de minimiser le javascript.

Cunegonde1 (discussioncontributions)

J'utilise également Abbyy finereader 15 sur une session windows. C'est le seul outil que j'utilise sous cet OS que je ne connais et n'utilise plus du tout depuis des années.

Finereader est excellent mais cher : actuellement, ce logiciel n'est plus vendu, mais loué avec abonnement, cela revient donc plus cher (~300€ pour la version 15 que j'ai depuis plus de 3 ans et 100€/an actuellement.)

Inconvénients :

  • Il requiers un apprentissage conséquent pour en tirer parti (notamment pour les reconnaissances de livres anciens avec s longs).
  • il reconnaît mal les poèmes (il met fréquemment des sauts paragraphes à la place des sauts de lignes).

Points positifs :

  • Il exporte dans de nombreux formats dont le djvu.
  • les imports des livres de Auteur:Colette que je réalise actuellement sont tous faits avec Abbyy et il est très performant en utilisation intensive (notamment la vérification et pré-correction du texte reconnu).
Tötössy (discussioncontributions)

J'avais utilisé FineReader 10 auparavant, pendant plusieurs années, je passe à présent au 12. La reprise en main a été rapide. Malheureusement je constate que j'ai du mal avec le format djvu en lui-même. La méthode de compression JB2 utilisée par ce format semble dégrader même les images purement en NB. Toutes les formes noires ont des contours gris, alors qu'un pdf en noir & blanc total laisse voir les pixels quand on zoome. J'ai vérifié avec les anciens djvu que j'avais, y compris de wikisource: tous ont cette particularité.

En plus, ABBYY utilise cette méthode de compression sur les pdfs aussi, ce qui me décourage d'utiliser ce programme pour les OCR en général.

M'enfin, c'est un constat, je vais quand même créer puis téléverser les livres dont j'ai parlé. D'ailleurs, y a-t-il un système d'engagement, qui permet de faire savoir qu'on se charge de préparer tel ou tel document, afin que le même travail ne soit pas fait simultanément par plusieurs?

Idéalement, je pourrais me charger de téléverser encore d'autres romans de La Vaudère qui ne sont pas encore sur wikisource mais disponibles sur Internet Archive, Gallica ou Google Books.

Cunegonde1 (discussioncontributions)

@Tötössy sur Abbyy Finereader 15 j'utilse les réglages suivants pour l'export en djvu :

*Mode d'enregistrement : Texte sous l'image de page

*Qualité de l'image : personnalisez, puis :

**Résolution soit décochée et c'est la résolution d'origine qui est retenue, soit coché avec 300dpi

**Contrôle des couleurs : Convertir les images en couleur et en niveaux de gris en images en noir et blanc en utilisant la binarisation

**Qualité : Perte de qualité non autorisée

Dans le cas ou je veuille certains pages en couleur, je les exporte séparément en choisissant : ne pas modifier les couleurs de l'image et Perte de qualité autorisée, Qualité 90%

*Plusieurs couches : Toujours désactivé.

Ensuite je remplace les images N/B par les images couleurs exportées séparément, avec le logiciel DjVuToy

Enfin si vous souhaitez indiquer que vous préparez l'import d'un livre, vous pouvez l'indiquer sur la page de l'auteur dans l'item "scan=" avec un message du genre "en cours de préparation".

Tötössy (discussioncontributions)

Bonjour, Cunegonde1.

J'ai passé beaucoup de temps hier à pré-corriger l'excellent OCR par FineReader. Par contre, à l'export quelque chose à merdé: sur le djvu, toutes les espaces se sont dédoublées... Quand j'ai exporté le même résultat en pdf, nul problème. J'ai regardé dans les options, et je ne vois pas du tout ce qui cause ça, j'ai essayé 2 fois aussi... Dans ce même export, j'ai constaté au moins une partie de phrase qui a disparu de l'OCR, alors qu'elle est bien présente dans FineReader...

J'ai utilisé les mêmes options que vous indiquez, l'avantage de ce premier livre est qu'il n'y a aucune image (sauf le logo de Flammarion).

Ensuite, bonne nouvelle, j'ai réussi à faire fonctionner PdfToDjvu... Ce matin, en me réveillant, la solution est apparue dans ma tête, et mon dieu que c'était stupide. En fait le nom du fichier comportait un caractère "è". Et visiblement c'est bien trop dur pour ce programme fait au XXIe siècle d'interpréter ce caractère.

En tout cas, avec un nom de fichier simple, j'ai réussi à obtenir la conversion. Mais je dois dire que le résultat est inattendu: l'OCR du pdf et l'OCR du djvu ne correspondent pas...

Voici un exemple. D'abord le pdf (source), ensuite le djvu (p.47 entière):

1.

— Oh ! Bien-Aimé, nous sommes perdus !...

Nysista pleurait sur la poitrine de son amant.

Lui, regardait, à la lueur de la lune, les pics roses des montagnes qui protégeaient la ville. C’étaient comme des apparitions à demi évanouies de visionnaires. Ils étaient noyés tous deux et comme hantés dans le mystère des êtres et des choses, ne voyant plus la cité endormie sous les cimes lointaines, envolées dans la lumière blanche, d’une légèreté de songe. La jeune fille pleurait toujours à gros san

2.

O h! Bien-Aimé, nous sommes perdus!...

Nysista pleurait sur la poitrine de son

amant.

Lui, regardait, à la lueur de la lune, les pics

roses des montagnes qui protégeaient la ville.

C’étaient comme des apparitions à demi éva­-

nouies de visionnaires. Ils étaient noyés tous

deux et comme hantés dans le mystère des

êtres et des choses, ne voyant plus la cité en ­-

dormie sous les cimes lointaines, envolées dans

la lumière blanche, d’une légèreté de songe.

La jeune fille pleurait toujours à gros san ­­­-

Pourquoi les lignes sont fusionnées dans le pdf mais séparées dans le djvu? Pourquoi le tiret fait une ligne à lui tout seul? Pourquoi un espace entre "O" et "h"? Pourquoi les espaces avant "!", que j'avais tapés dans FineReader pourtant, ont disparu juste après? Grand nombre de corrections portaient sur ces espaces, visiblement tout ça pour rien. Pourquoi les tirets de passage à la ligne, qui apparaissaient comme caractère spécial dans l'OCR de FineReader, ont disparu dans le pdf et sont restés dans le djvu? Et pourquoi le djvu a rajouté des espaces devant certains, mais non tous, de ces tirets?

Si vous avez une raison générale à m'indiquer, je suis curieux.

Cependant, malgré tout, je suis presque prêt à importer.

Cunegonde1 (discussioncontributions)

@Tötössy Pour la question des espaces sur les caractères de ponctuation, Abbyy ne les reconnaît pas de façon fiable en français, aussi je modifie le paramètre suivant : Options/Zones et texte/Paramètres de vérification, et là je décoche "Corriger les espaces précédant et suivant les signes de ponctuation." Ensuite un fois la reconnaissance et la vérification achevées, je corrige les espacements pour qu'ils correspondent aux règles françaises : je sélectionne successivement ?, ;, :, !, et les remplace par le même signe précédé d'une espace. Ensuite je remplace le double espacement par un simple espacement.

Pour l'export au format texte, j'utilise l'export d'Abbyy avec les options : Mise en page du document : texte brut, je coche toutes les cases en dessous, je sélectionne le codage Unicode (UTF-8) et l'export respecte les sauts de lignes et de paragraphes.

C'est cet export txt qui me sert à corriger le texte hors-ligne avant de l'importer sur Wikisource. Si je veux vérifier aussi les mises en forme, je fais aussi un export odt avec respect des italiques.


pour les tirets, c'est la différence entre les tirets qu'Abby a considéré comme insécable et les autres. Là aussi, c'est une vérfication que je fais avant export, en sélectionna - suivi d'un saut de ligne et en le remplaçant par espace insécable suivi d'un saut de ligne, mais là on est obligé de les vérifier un par un pour éviter les faux positifs.

Tötössy (discussioncontributions)

Ah oui, on peut chercher et remplacer dans tout le document avec FineReader, j'ignorais; très bien! Je pense que l'option "Corriger les espaces" était désactivée, du coup certains avaient l'espace, d'autres non. Par contre pour le double espacement général, il n'est apparu qu'à l'issue de la conversion depuis le projet vers le djvu... J'éviterai à l'avenir de convertir directement en djvu.

Merci pour les autres précisions. Donc j'ai bien fait de conserver le projet.

ABBYY reconnaît-il l'espace insécable? Je ne l'ai pas vu dans mon OCR. J'ai corrigé l'ensemble du texte dans FineReader lui-même, je pense qu'il est satisfaisant. Il faudra finir de corriger de petites choses sur wikisource.

Je ne comprends pas votre commentaire sur les tirets. Dans ABBYY, il y a les tirets normaux "-", et les tirets pour couper un mot entre deux lignes. Vous suggérez que je remplace ces derniers par des espaces insécables?

Cunegonde1 (discussioncontributions)

@Tötössy Je me suis trompé ce n'est pas une espace insécable, c'est un tiret optionnel : dans peut-

être, il faut conserver le tiret et dans Tö-

tössy, il faut remplacer le tiret par un tiret optionnel : (¬).

Tötössy (discussioncontributions)

D'accord.

Donc en bref, il faut faire l'OCR puis créer le pdf puis le djvu, et aussi exporter les données de l'OCR en txt pour coller ces données sur les pages fournies par wikisource plus tard et éviter les erreurs d'OCR du djvu. Est-ce bien cela?

Cunegonde1 (discussioncontributions)

@Tötössy Pour wikisource, c'est soit le pdf soit le djvu, mais si vous souhaitez utiliser le robot match et split pour coller le texte (préalablement corrigé) dans le livre importé, cela ne fonctionne qu'avec le djvu.

L'utilisation de pdf transformé ensuite en djvu est un système que je n'utilise qu'avec Tesseract. Désolé si tout cela est complexe, mais c'est comme çà.

Tötössy (discussioncontributions)

Pardon, je me suis mal exprimé.

Je disais transformer le pdf en djvu parce qu'ici le djvu directement sorti de FineReader avait le problème des doubles espaces ajoutées arbitrairement. Mais peut-être cela n'impacte que moi.

Pour le reste, je ne déplorais pas la complexité du processus. Je sais que ce genre de choses demande beaucoup d'étapes (et, je pense, beaucoup de temps et d'attention).

Je viens d'exporter en txt, c'est très bien ça a préservé l'ensemble des informations (sauf les quelques italiques, faciles à remettre). Est-il mieux de garder aussi les en-têtes avec le nom de l'ouvrage et le numéro de page?

Cunegonde1 (discussioncontributions)

@Tötössy Je ne comprends pas comment vous voyez les problèmes d'espace directement dans le djvu.

Pour les italiques, je fais également un export pour libre-office .odt avec pour paramètre texte brut, format de papier A5, conserver les entêtes et pieds de pages, conserver les styles de texte gras, italiques etc. Et dans libre office, je fais une recherche par Attributs : inclinaison et je coche l'option y compris les styles, ce qui permet de rechercher le style et pas le texte et de trouver facilement les passages en italique dans l'ensemble du livre.

Tötössy (discussioncontributions)

Je vois les problèmes d'espaces tout simplement en faisant copier/coller vers un bloc-notes. C'est ainsi que j'ai pu constater que le djvu issu du pdf n'a pas ce problème.

Oui, je pourrais exporter vers un document avec mise en forme possible, simplement dans "La sorcière d'Ecbatane", il n'y a que très peu d'italiques, ça pourra être corrigé directement sur wikisource, surtout qu'il faut appliquer les modèles (ce que je ne sais pas encore faire).

Par contre je viens de passer avec ScanTailor sur "L'amazone du roi de Siam", et là les italiques foisonnent. (Je pourrai l'importer prochainement si besoin est; peut-être pas cette semaine.)

Tötössy (discussioncontributions)
FreeCorp (discussioncontributions)

Pour importer un ouvrage en faisant facilement le lien avec l'autrice tant sur Wikimedia Commons (où en effet ça ne semble pas avoir bien fonctionné) que sur Wikisource (où tu as bien fait le lien avec la page Wikisource de l'autrice, @Tötössy), une astuce consiste à créer l'élément Wikidata correspondant. Tu trouveras dans cette vidéo de 18 minutes, un tutoriel montrant comment créer l'élément Wikidata relié à une édition déposée sur Wikimedia Commons avant l'import sur Wikisource : https://www.youtube.com/watch?v=PPTepM7_Ghc. Il y a aussi un MOOC sur Wikidata en ce moment, et jusqu'à mi décembre, pour découvrir plus en détails cette base de données collaborative. Bravo et merci pour cet import !

Tötössy (discussioncontributions)

Merci pour ces précisions, je regarderai ça. Cependant La Vaudère existe sur wikidata: https://www.wikidata.org/wiki/Q3161905

Pourtant le modèle indiqué sur la page d'aide ne l'a pas relié à cet élément.

Cunegonde1 (discussioncontributions)

Bonjour @Tötössy Tout s'est bien passé, Bravo ! Le fac-similé est de bonne qualité, complet, la couche texte est excellente (je la visualise avec le logiciel DjView). Le lien vers Wikisource est généré correctement. Il suffit de cliquer sur le logo bleu (pour Wikisource) qui se trouve en haut du cadre "Description". Cela donne accès à la page d'"Index" du livre sur Wikisource avec des champs déjà partiellement renseignés. Je vous laisse le découvrir.

Tötössy (discussioncontributions)

Encore merci pour votre assistance!

Pour renseigner le champ de la pagination, j'aurai sûrement besoin d'aide. Le livre a une double pagination, ce qui est un cas particulier.

(J'ai fait une demande de parrainage aussi.)