À propos de ce flux de discussion

En vacances pour une période indéfinie.

La discussion précédente a été archivée dans Discussion utilisateur:Ernest-Mtl/Archive 1 le 2016-04-26.

Koreller (discussioncontributions)

Bonjour Ernest-Mtl,

Je vous sollicite encore, serait-il possible que vous importiez les ouvrages suivants, en leur mettant une bonne couche d'OCR ?

En vous remerciant par avance et bonne journée :) !

Répondre à « Import d'ouvrages »
Viticulum (discussioncontributions)
Ernest-Mtl (discussioncontributions)

C'est le même problème que pour notre fameux livres de cettes... trop de modèles pour qu'il puisse les traites... je vais essayer qqch et je te reviens...

Ernest-Mtl (discussioncontributions)

L'expansion des modèles ne fonctionne pas bien à cause des lp... Mais ça aurait réglé le problème... Je ne me souviens plus dans quel livre on avait fait ça, mais tu devras faire plusieurs pages d'index, genre

23a-d

23e-l

23m-s

23t-z

Ernest

Viticulum (discussioncontributions)

Euh, je fais ça comment au juste ?

Ernest-Mtl (discussioncontributions)

j'ai ajusté la tdm... il ne restera qu'à faire les sections et transclusions...

Viticulum (discussioncontributions)

Ah Ok.


Second problème avec ce livre : Livre:Darwin - La Descendance de l’homme, 1881.djvu


Navigation entre les chapitres.

Si clique sur « PREMIÈRE PARTIE » ou bien sur « LA DESCENDANCE OU L’ORIGINE DE L’HOMME » La navigation n'est pas permise.

On doit débuter par « Préface de Ch. Darwin à la deuxième édition anglaise » pour naviguer vers les prochains chapitres.

Le même phénomène se produit rendu à « DEUXIÈME PARTIE » et « LA SÉLECTION SEXUELLE »


Merci de ton aide

Ernest-Mtl (discussioncontributions)

Ok celui là est tout simple... le lien de «PREMIÈRE PARTIE» et «LA DESCENDANCE OU L’ORIGINE DE L’HOMME» est exactement le même... alors le navigateur ne peut permettre de poursuivre la navigation avec son propre lien.

J'ai fait un t3 regroupé avec br sur le premier... tu pourras utiliser le même principe pour les autres parties... La navigation refonctionne avec la première partie...

Viticulum (discussioncontributions)

Ça aussi ça fonctionne. merci

Viticulum (discussioncontributions)

Troisième situation. Nombre de coquilles dans ce livre Livre:Darwin - La Descendance de l’homme, 1881.djvu

Je dénombre près de 600 coquilles dans ce livre de 700 pages tout en jaune. Sans compter les coquilles que le système n'affiche pas... Ça me semble élevé... J'hésite à le publier aux nouveautés. Comme j'ai l'intention de le valider en le lisant, je me demande si je devrais attendre...

Quels sont vos opinions @Ernest-Mtl et @Kaviraf

Kaviraf (discussioncontributions)

Comment tu as fait pour dénombrer les 600 coquilles ? Serais-tu devin ?

Je suggère de porter en début d'ouvrage une annotation qui avertira tout lecteur potentiel et d'en faire malgré tout la publication bien que la validation ne soit pas encore faite.

Je vais t'aider pour la validation car c'est un "monument".

Attendons le point de vue d'Ernest.

Ernest-Mtl (discussioncontributions)

Je suis de l'avis de Catherine... Je le publierais moi aussi... Et on pourrait l'ajouter à la Mission pour la validation...

Viticulum (discussioncontributions)

@Kaviraf Tu parcours chaque chapitre transclus et dans la colonne de gauche sous « Outils » et « Erreurs possibles », on a le nombre de coquilles détectés par le système. Je fais toujours cet exercice avant de publier et je corrige, mais là il y en a beaucoup trop...

Kaviraf (discussioncontributions)

OK, je dormirai moins bête ce soir...

Aux coquilles annoncées, il faudrait peut-être ajouter celles trouvées dans les Annexes. J'ai seulement corrigé les fautes et les coquilles dans l'annexe, mais pas dans les chapitres.

Kaviraf (discussioncontributions)

En fait, ce que tu appelles "coquilles" ce sont les fautes du style "typo" ou apostrophes courbes à corriger sur la page de gauche, mais pas nécessairement des coquilles (fautes d'impression ou d'orthographe dans le FS d'origine page de droite).

Viticulum (discussioncontributions)

Oui c'est ça, mais pas seulement.

Ernest-Mtl (discussioncontributions)

La plupart se corrigeront donc à la validation en appuyant sur l'outil typo... On peut mettre une note au-dessus de la pagelist de le faire systématiquement pour ceux qui décideront de valider des pages de l'ouvrage...

Répondre à « Besoin d'aide pour plusieurs problèmes... »

Autre problème de navigation : Livre:Féron - La femme d'or, 1925.djvu

2
Viticulum (discussioncontributions)
Ernest-Mtl (discussioncontributions)

Voilà... c'est réglé... je ne m'en étais même pas rendu compte!

Ajouter une couche d'OCR à un DJVU ou à un PDF

19
Koreller (discussioncontributions)

Bonjour,


J'ai entendu que vous étiez assez habile avec la technique sur Wikisource, et du coup je me tourne vers vous pour avoir de vos astuces :D

J'aimerais savoir avec quels outils et comment vous faites pour ajouter une couche d'OCR à un fichier .djvu ou .pdf (avec quelle logiciel ou site web, d'où prenez vous l'OCR, et si vous avec de l'OCR en .txt comment faites vous pour l'associer au .pdf ou au .djvu ?)


En vous remerciant :)

Bonne journée.

Ernest-Mtl (discussioncontributions)

Bonjour...

Depuis 2014 que je contribue ici, j'ai toujours utilisé ABBYY (qui n'est malheureusement pas gratuit) pour préparer des DJVU et PDF (depuis 1 an, je ne fais que des PDF car la version des DJVU créés par ABBYY est dépassée le standard DJVU utilisé sur le projets wiki). Une fois le fichier recréé avec la couche texte par OCR, il ne suffit plus que de remplacer le fichier sans OCR.

Cependant, si vous avez l'OCR en format txt, il est possible d'apparier le texte avec le facsimilé par le petit robot M&S (Match & Split). Dans ce cas-ci, il s'agît de donner les indicateurs de pages dans le fichier txt en mode menu (ex: <noiwiki>==Page:titre.djvu/32==</nowiki> et ainsi de suite pour toutes les pages), importer le fichier txt sur WS, ce qui ouvrira un onglet additionnel Split que l'on peut cliquer pour envoyer l'OCR directement dans des pages roses sur le DJVU ou le PDF. Pour un livre de moins de 100 pages, ça passe encore, mais pour un livre de 200, 300, 400 voire 500 pages, ça devient tout un travail de moine... ;)

N'hésite pas si tu as des questions.

Koreller (discussioncontributions)

Merci pour ta réponse, effectivement j'ai des questions :D

Du coup, tu as acheté la version « ABBYY FineReader PDF 15 » version « Standard » à 199€ (tout en bas de ce lien) ?

L'OCR de ABBYY est « maison » ou il utilise l'OCR de Google derrière (ou d'un autre) ? Est-ce que l'OCR de ABBYY est bon ? Est-il mieux que celui de Google ?

Je n'ai pas bien saisi ta phrase « car la version des DJVU créés par ABBYY est dépassée le standard DJVU utilisé sur le projets wiki » : c'est le standard DJVU qui est dépassé ? ou la gestion par ABBYY du format DJVU qui est dépassée ?

Est-ce que vous utilisez des boutons OCR directement sur Wikisource ? (si oui lesquels ?) Que pense-tu de l'OCR de base sur Wikisource ? et de l'OCR Tesseract ? et de l'OCR Google ? (en connais-tu d'autres ?)

Est-ce que vous savez à quoi servent sur Internet Archive tous les fichiers qu'ils proposent au téléchargement (par exemple sur en cliquant sur « SHOW ALL » cela renvoi tout une série de fichier téléchargeable : lesquels sont utiles ?)

Merci :D

Ernest-Mtl (discussioncontributions)

J'ai encore la version 14... Je saute une sur 2... Quand ils vont sortir la 16, je vais me mettre à jour...

L'OCR de ABBYY est "built-in", il n'utilise pas l'OCR d'un autre moteur. Ce qui le rend particulièrement efficace car ABBYY a fait sa renommée grâce à son OCR. Son autre avantage, c'est qu'on peut lui apprendre à se dépasser... très utile notamment lorsque je fais des OCR de très vieux textes avec le s long et les ligatures ss, ct, ft, st, etc...

Le standard DJVU que prépare ABBYY est plus avancé que le standard DJVU utlisé ici. Alors ça provoque des décalage d'OCR ici. Je sauvegarde donc en PDF maintenant vu que WS fonctionne aussi bien en PDF que DJVU. Un jour la Fondation mettra peut-être le standard du DJVU à jour et je pourrai recommencer à faire des DJVU.

Pour le bouton OCR sur wikisource, il ne fonctionne pas ici... Peut-être mon système, ou mon fureteur...

Sur IA, je choisis toujours le PDF et je le traite de mon côté. Ils offrent dans les anciens fichiers plusieurs options dont le DJVU qui a un OCR de fait mais leur OCR est un OCR généraliste "américain" donc il est très rare que les accents soient retranscrits.

Koreller (discussioncontributions)

Et donc, du coup, vous n'utilisez que le bouton OCR de Wikisource sur wikisource (qui malheureusement ne fonctionne pu depuis quelques jours :/) ? Vous utilisez jamais le bouton OCR de Google sur wikisource ? (et du coup vous en avez pas d'autre je suppose ?)

Merci pour vos informations sur IA ! Et pour vos réponses ! (j'en retiens que ABBYY est incontournable pour vraiment maitriser les formats utilisés pour wikisource !)

Ernest-Mtl (discussioncontributions)

Disons que ce n'est pas un "incontournable" mais j'aime bien l'efficacité... Et malheureusement, l'efficacité se paie... ;)

Le ciel est par dessus le toit (discussioncontributions)

A qui pourrait-on demander une mise à jour pour l'utilisation sur les wikis

Ernest-Mtl (discussioncontributions)

Aucune idée... Thomas peut-être? Si ce n'est pas lui, peut-être pourrait-il te guider dans la bonne direction.

Le ciel est par dessus le toit (discussioncontributions)

C'est qui Thomas ?

Ernest-Mtl (discussioncontributions)

Oopps... TPT...

Le ciel est par dessus le toit (discussioncontributions)

@Tpt bonjour, pourris-tu te renseigner pour résoudre le problème exposé ci-dessus stp

Tpt (discussioncontributions)

Désolé du lag. L'outil d'OCR était effectivement planté. Je l'ai redémarré il y a deux jours et je crois qu'il marche maintenant.

Le ciel est par dessus le toit (discussioncontributions)

@Tpt et pour la mise à niveau des djvu sur les wikis ? voir plus haut

Tpt (discussioncontributions)

Hum, la version du DjVu libre utilisé est probablement celle fournis avec le serveurs Wikimedia. C'est hors de mon contrôle. Pourrais-tu ouvrir une task Phabricator à ce sujet?

Le ciel est par dessus le toit (discussioncontributions)

@Tpt ben non ! je ne sais même pas ce que c'est qu'une task Phabricator et je suppose qu'il faut parler anglais donc si tu pouvais le faire je t'en serai vivement reconnaissant. ;) et :)

Tpt (discussioncontributions)

Après une recherche, la dernière version de DjVu date de 2005, je crois qu'on est à jour là dessus. Le problème que vous rencontrer ressemble beaucoup à celui ci ou encore celui là. MediaWiki ignore les pages invalides dans le DjVu, créant un décalage. Il faudrait que je m'y mette.

Le ciel est par dessus le toit (discussioncontributions)

@Tpt je compte sur toi, même si ça presse pas trop mais ça limite le travail d'Ernest et par conséquent le mien ;) Merci

Koreller (discussioncontributions)
Ernest-Mtl (discussioncontributions)

Commons n'accepte que des fichiers qui sont DP aux USA... Ici, sur WSFR, nous pouvons déposer des fichiers qui sont DP en Europe ou au Canada, mais pas aux États-Unis. Donc dans ce cas-ci, 1925, on doit attendre au 1er janvier 2021 pour le transférer sur commons car en ce moment, aux USA, on peut se rendre jusqu'en 1924.

Répondre à « Ajouter une couche d'OCR à un DJVU ou à un PDF »
Koreller (discussioncontributions)
Ernest-Mtl (discussioncontributions)

Je peux préparer le premier... Et en janvier prochain, me recontacter pour le second... ;)

Ernest-Mtl (discussioncontributions)

Et si le texte de Marcel Mauss est dans l'ouvrage, ne pas oublier qu'il ne faut pas le publier avant janvier, année du DP de son auteur.

Koreller (discussioncontributions)

Okay, ba je te recontacterai en janvier du coup merci !

Hsarrazin (discussioncontributions)

bonjour @Koreller

si Marcel Mauss est mort en 1950, il sera DP... après le 1er janvier 2021 :) - sinon, je laisse Ernest voir les aspects pratiques :)

Répondre à « Import « L'Année sociologique 1923-1924 » »
Le ciel est par dessus le toit (discussioncontributions)

Bonjour Ernest,

Il faut m'importer les pages de gallica à gallica, mais pas le reste du fac-similé. pour le titre on met :


Bellegarrigue - L'Anarchie, journal de l'ordre n° 1 et 2 , 1850


C'est une reproduction de l'original provenant de https://gallica.bnf.fr/ark:/12148/bpt6k6848q mais on s'en fout un peu


Si ça décale l'ocr, tu me fais un fichier avec l'ocr brut et je copie-collerai le texte. Merci.


Pour une fois c'est assez pressé, parce que il y a des contributeurs qui me suivent et qui prennent des initiatives avant que j'ai terminé ce que je dois faire. grrr.


Bien à toi.

Ernest-Mtl (discussioncontributions)

je vais tenter de te faire ça... c'est pour du M&S car mes deux dernières tentatives de DJVU étaient brisées.

Le ciel est par dessus le toit (discussioncontributions)

oui mais, si ça ne marche pas tu fais un fichier à part avec l'OCR brut, comme tu as déjà fais et je me chargerais de rétablir les décalage par copier coller.

Ernest-Mtl (discussioncontributions)

Je viens d'en essayer un et la réduction de qualité de l'image a rendu le texte totalement illisible sur les images... :(

Le ciel est par dessus le toit (discussioncontributions)

zut on s'en sortira pas

Ernest-Mtl (discussioncontributions)

ce n'est pas parti pour!

Le ciel est par dessus le toit (discussioncontributions)

ouais... :(

Le ciel est par dessus le toit (discussioncontributions)
Répondre à « Import L'anarchie, journal de l'ordre »
Viticulum (discussioncontributions)
Ernest-Mtl (discussioncontributions)

c'est vrai que c'est long... et peu utile selon moi avec les outils de nos jours car une simple recherche nous permet d'obtenir l'information... C'est pourquoi je corrige généralement les pages d'index en liste de mots clés... J'imagine que l'on pourrait tout simplement mettre les pages en gris sinon.

Viticulum (discussioncontributions)

Certains contributeurs ont débuté la mise en page, alors je les laisse aller... Mais je ne mettrai pas de liens...

Répondre à « Livre publié »
Fabrice Dury (discussioncontributions)

Ernest-Mtl, bonjour. Aurais-tu la possibilité de te pencher sur mes demandes d'importation de livres, dont certaines datent de six mois. Merci d'avance.

Ernest-Mtl (discussioncontributions)

salut Fabrice... Désolé pour les délais... comme il n'y avait pas de vacances et de voyages cette année avec la covid, nous avons fait beaucoup de travaux sur la maison et le temps était surtout investi là... Je regarde ça!

Répondre à « Demandes d'importations »
Le ciel est par dessus le toit (discussioncontributions)
Ernest-Mtl (discussioncontributions)

En effet, je vais l'essayer!

Répondre à « Ca peut t'intéresser »
Le ciel est par dessus le toit (discussioncontributions)

bonjour, pourrais-tu regarder cette page La Minerve (Canada) quelques soit le liens vers banq il renvoie toujours au numéro 1 de la Minerve, saurais-tu trouver les liens permanents qui correspondent à chacun des textes. Ca vaa faire une heure que je m'épuise la dessus. Avant ces liens renvoyaient au bon fs. grrrr. Ah ces canadiens... (mais je te rassure c'est aussi chiant en ce moment chez gallica qui refond son site et où je suis obligé de demander à Hélène ou se trouve certains livre que j'avais déjà sous le coude)

Ernest-Mtl (discussioncontributions)

hehe ouaip, BAnQ avait refondu son système...

Ernest-Mtl (discussioncontributions)

voilà les nouveau permaliens sont sur les pages de discussions et sur la page générale.

Le ciel est par dessus le toit (discussioncontributions)

Un grand merci

Répondre à « Problème de liens avec BanQ »