Sujet sur Discussion utilisateur:Acélan/Structured Discussions Archive 1

Martinpeacher (discussioncontributions)

Bonsoir Acelan,

Je me suis aperçu trop tard qu’il manque 4 pages au Scan de ce livre qu’on ne trouve pratiquement nulle part. Que faire ? Merci. @martinpeacher

Acélan (discussioncontributions)

Bonjour,

Tu fais bien de me le dire, parce que je m'apprêtais à ajouter la couche texte manquante...

Je n'ai pas trouvé non plus ; @Shev123 est très fort à ce jeu-là ; voyons s'il trouvera une piste.

J'ajoute le lien, quand même, vers le livre en question (c'est plus facile) : Livre:Léon Daudet – Le Monde des images.djvu

Hsarrazin (discussioncontributions)

Bonsoir :)

Il y a 2 scans sur Google, dont l'un est celui de IA. Google est un autre scan qu'on trouve aussi sur Hathi Trust

Il est peut-être accessible depuis les USA/Canada, ou avec un VPN, et il doit être possible de le faire débloquer par Google, puisque le livre est DPEU et DP par rapport à Daudet (mort en 1942)...

Avec un peu de chance, les pages manquantes, s'il y en a, ne seront pas les mêmes...

Sinon, il faudra sans doute aller photographier les pages dans une bibliothèque…

@Martinpeacher : je n'ai pas réussi à repérer les pages manquantes - peux-tu, stp, passer en bleu les pages qui sont juste après celles qui manquent pour faciliter le repérage ?

Acélan (discussioncontributions)

@Hsarrazin : les pages manquantes sont signalées en PDD

Hsarrazin (discussioncontributions)

... je n'avais pas pensé à regarder... ceci dit, @Martinpeacher en signale 4 ?

Shev123 (discussioncontributions)

J'ai mis quatre pages blanches dans le djvu en attendant (renommage à faire). Je peux avoir accès au livre sur HT dans deux semaines ou aller à la BNF dans une dizaine de jours. Le livre peut être corrigé pendant ce temps.

Acélan (discussioncontributions)

Merci @Shev123 ! Je m'occupe du renommage entre temps.

Acélan (discussioncontributions)

A vrai dire, je ne m'y retrouve pas trop. Apparemment, il y a des pages en trop, aussi. Vu qu'il n'y a pas de couche texte, et pas tellement de pages corrigées, je pense qu'il ne faut pas s'occuper de la correction pour le moment, et attendre d'avoir le bon fichier avant de corriger quoi que ce soit.

Shev123 (discussioncontributions)

J'ai pris en photos les 4 pages manquantes. Il faut décaler les pages. S'il manque ou s'il y a des pages en trop je modifierais le djvu.

Shev123 (discussioncontributions)

Par contre, il n'y a pas d'OCR pour ce texte ?

Hsarrazin (discussioncontributions)

apparemment pas... certains contributeurs se débrouillent sans... mais @Acélan s'apprêtait à s'en occuper quand on s'est aperçu qu'il manquait des pages...

Acélan (discussioncontributions)

Oui, je vais faire. @Shev123 tu peux me confirmer que le FS est OK, maintenant ?

Shev123 (discussioncontributions)

Les 4 pages ont été insérées. La pagelist semble ok donc pour moi cela semble bon.

Acélan (discussioncontributions)

@Martinpeacher : tout est maintenant en ordre ; Shev123 a réparé le FS, et je lui ai ajouté une couche texte.

Martinpeacher (discussioncontributions)

Oui et merci. J'avais repris l'ouvrage dès l'addition des pages par Shev1223 que j'ai remercié, et j'ai fait le nécessaire pour la table des matières. J'ai mis à jour (transcrites) les pages ajoutées. Une question que je me pose encore du fait de mon inexpérience : Pourquoi, comment, l'OCR a-t-il été activé ? Du fait de son absence j'avais pu avoir le texte sur lequel j'ai fait des corrections globales et qui me sert encore actuellement.

Acélan (discussioncontributions)

Pourquoi ? parce qu'en général c'est plus pratique, et que le livre était dans la catégorie:Livres sans couche texte. Comment ? avec un logiciel d'OCR. Je ne comprends pas trop ton message : tu veux dire que le fait que j'aie ajouté une couche texte te pose un problème ? lequel ? vu qu'on a évoqué la question plus haut, dommage, dans ce cas, que tu ne te sois pas manifesté plus tôt...


Martinpeacher (discussioncontributions)

Aucun problème, au contraire. Je pensais jusqu'alors que la touche "OCR" dans le mode page permettait au serveur d'activer le logiciel et de renvoyer un texte, page par page. D'après cette expérience, si je ne me trompe pas, j'en déduis qu'un livre qui n'a pas de couche texte d'origine, ne pourra l'acquérir que sur l'intervention d'un administrateur et globalement pour tout le livre.

Hsarrazin (discussioncontributions)

Bonjour @Martinpeacher

quand le fichier est importé depuis un site qui a déjà réalisé l'OCR, c'est alors cet ocr qui s'affiche directement... la touche OCR ne sert que pour les livres qui n'en ont ''pas encore''.

en fait, le bouton "OCR" permet de lancer un outil d'OCR en ligne (Tesseract) qui met pas mal de temps pour chaque page, et ne fonctionne pas toujours... - de plus, selon le scan originel, les résultats sont plus ou moins satisfaisants...

alors que le fait d'ajouter une couche texte au fichier djVu permet d'avoir le texte directement à l'ouverture de la page... l'ocr est créé "en bloc" pour tout le livre, et on peut utiliser l'outil d'ocr qu'on veut, y compris des outils non libres, et plus performants que Tesseract... (l'un des meilleurs étant ABBYY) — c'est pour ça que la plupart des contributeurs préfèrent qu'il y ait une couche texte ajoutée au départ...

pour en savoir plus sur la construction (complète) d'un fichier avec ocr, je te conseille la lecture de ce tutoriel DjVu, qui explique comment on peut créer un fichier djvu océrisé à partir d'un pdf sans ocr.

et sinon, la méthode la plus simple consiste à demander l'ajout d'une couche texte OCR dans l'avancement du livre, avec un petit message en plus sur le Scriptorium - Il y a des contributeurs (administrateurs ou pas) qui le feront volontiers)...

comme te l'as indiqué @Acélan, ça n'a rien à voir avec le fait d'être un administrateur, mais ça suppose de disposer d'un bon logiciel d'ocr, pouvant exporter en djVu (ce qui n'est pas le cas sur les Mac, par exemple).

Martinpeacher (discussioncontributions)

Merci pour toutes ces précisions. En fait "Tessaract" ne marchait pas du tout ces temps derniers.

J'ai encore à comprendre comment le fichier djvu qui a été enregistré peut être modifié globalement. Je vais regarder le tutoriel.

Hsarrazin (discussioncontributions)

effectivement, l'outil d'ocr à la volée ne fonctionne plus correctement depuis déjà un moment... :(

Acélan (discussioncontributions)

Le fait d'être administrateur n'a rien à voir là-dedans : il faut, soit avoir un logiciel dédié, comme c'est mon cas, soit connaître et maîtriser les autre solutions qui existent - ce qui n'est pas mon cas.

Martinpeacher (discussioncontributions)

J'ai presque la réponse à toute mes questions. Puis-je connaître le logiciel OCR utilisé dans le cas présent : Il est excellent.

Acélan (discussioncontributions)

C'est Abby Fine reader, qui donne souvent de bons résultats, en effet (même si on peut avoir des résultats décevants parfois)

Répondre à « Le Monde des Images »