Wikisource:Des formats variés pour Wikisource

Accueil Projets > Des formats variés pour Wikisource
Explication des icônes : En projet ; Commencé ; En cours ; Avancé ; Terminé
Idées et projets
Idées et projets
Projet no 22 — Formats de sortie pour Wikisource
Objectif : Répondre aux demandes de différents formats pour Wikisource

Extension epub
modifier

Ce cadre est une transclusion
Source : Discussion utilisateur:Tpt


Démarrage du projet
modifier

Motivation modifier

Ce cadre est une transclusion
Source : Wikisource:Scriptorium/Juillet 2010

Possesseur d'un iPhone j'ai découvert hier soir cette nouvelle application qui permet d'acheter des livres électroniques pour les consulter sur iPhone, iPod et iPad. Mais j'ai surtout été surpris par la présence dans la bibliothèque en ligne de nombreux livres du projet Gutenberg. Je pense que ce serait un bon moyen de promotion pour wikisource de diffuser les livres qui ont été validés sur cette plateforme. Je ne connais pas les conditions que pose Apple, mais pour avoir feuilleté plusieurs livres de Gutenberg, plusieurs commentaires se plaignaient du nombre de coquilles présentes. J'ai oublié de préciser, les livres Gutenberg sont bien sûr gratuits.

Qu'en pensez-vous ? Serait-il possible d'envisager une collaboration avec Apple pour mettre à disposition les livres validés de wikisource ? Aristoi (d) 7 juillet 2010 à 13:22 (UTC)[répondre]

Je ne sais pas quels sont les avis des uns et des autres, ni quels sont les obstacles éventuels à une telle collaboration, mais en ce qui me concerne ce serait avec grand plaisir. --Zyephyrus (d) 7 juillet 2010 à 13:42 (UTC)[répondre]
Excellente idée. Quelques questions : les livres sont gratuit mais l’application aussi ? sinon par curiosité, combien de personnes ont un iPhone ? En dehors des conditions de Apple, il y a aussi la technique, qui pourrait développer cela ? Y a-t-il vraiment besoin d’une collaboration avec Apple (je crois que non mais sans certitude). Cdlt, VIGNERON * discut. 7 juillet 2010 à 22:07 (UTC)[répondre]
Les livres sont gratuits, l'application est gratuite (il faut avoir mis à jour le système d'exploitation du téléphone cependant, pour l'iOS4). De plus l'iPhone n'est pas le seul appareil pour pouvoir lire les livres, l'iPad et le Ipod Touche le permettent aussi. Une rapide recherche google nous indique que l’été dernier il y avait 1,7 millions d'iPhone en France. Ensuite, niveau technique je n'ai aucune idée de ce qui serait nécessaire ; cependant il est dit que les livres peuvent être au format pdf ou eBook. Je n'ai pas réussi à trouver le moyen d'uploader de nouveaux livres ni les conditions d'Apple. Aristoi (d) 8 juillet 2010 à 07:26 (UTC)[répondre]

C'est en effet un très bon projet de pourvoir lire les texte de wikisource sur les smartphone en général. Pour cela je vois deux solution : soit convertir les textes de wikisoure dans un format d'ebook comme l'w:epub (utilisé par iBooks, les w:Kindle ce qui implique d'avoir une version stable du texte et qui n'est donc envisageable que pour les livres validés ; soit faire des applications wikisource sur iPhone, android, blackberry... qui mettrai les page html de wikisource en version mobile et qui les sauvegarderai. Mais pour cela, il faudrait créer un système beaucoup plus normalisé de présentation des textes. Tpt (d) 9 juillet 2010 à 09:57 (UTC)[répondre]

Je pense qu'on peut beaucoup élargir cela. Il faut pouvoir créer des fichiers à la demande dans plusieurs formats (PDF, ePub, etc.), qui peuvent ensuite être téléchargés. Cela motiverait grandement la validation. Yann (d) 9 juillet 2010 à 12:28 (UTC)[répondre]
Créer un projet : n° 22, Des formats variés pour Wikisource ? J’aimerais bien moi aussi répondre à une variété de demandes plutôt qu’une seule.--Zyephyrus (d) 9 juillet 2010 à 13:08 (UTC)[répondre]


Formats existants modifier

Pour information, Internet Archive est probablement le site qui propose le plus de formats :

  • lecture en ligne (Read Online, le seul format que l’on maitrise déjà sur WS  )
  • PDF (existe déjà sur WS mais pas fonctionnel) / PDF Noir et blanc (donc plus léger)
  • EPUB
  • DAISY (Digital Accessible Information SYstem, norme ouverte)
  • Kindle (?)
  • w:Fichier texte .txt (Full Text)
  • DjVu (existe déjà via Commons, envisager la possibilité d’y intégrer le texte validé ?)

Il existe une multitude d’autres formats :

Ces formats existent avec de nombreuses variations de codages : ascii, utf8, utf16, utf32, latin1, latin9, etc.

Il faudrait commencer par faire un tri. Produire un pdf correct potable me semble le plus important et urgent (sachant qu’il existe des outils ensuite pour convertir de pdf vers les autres formats cela pourrait être une solution de bricolage en attendant mieux). Cdlt, VIGNERON * discut. 13 juillet 2010 à 06:51 (UTC)[répondre]

Ne serait-il pas urgent aussi de produire des articles explicatifs sur Wikipédia concernant tous ces termes ? Il semble qu’une partie des liens que je viens d’ajouter n’aboutissent pas à des articles, cela me paraît étrange. --Zyephyrus (d) 13 juillet 2010 à 07:33 (UTC)[répondre]
Oui aussi ;) Je m’en charges. Déjà je viens de corriger un peu la liste. Cdlt, VIGNERON * discut. 13 juillet 2010 à 10:17 (UTC)[répondre]
On discutait à Wikimania avec Bastien (employé WMFR) et Ash Crow, et on trouvait que le format ePub serait vraiment pratique pour la diffusion des textes WS. ~ Seb35 [^_^] 17 juillet 2010 à 20:53 (UTC)[répondre]

Est-ce que tous les formats de cette liste sont compatibles avec la politique de rejet des formats propriétaires définie sur Meta ? Sont-ils tous accessibles gratuitement, et le resteront-ils ? --Zyephyrus (d) 22 septembre 2010 à 19:29 (UTC)[répondre]

Non, la plupart de ces formats sont fermés et/ou propriétaires et/ou payant. Mais on n’a pas le choix, certains matériels n’acceptent que tel ou tel format, il faut aussi s’adapter aux besoins.
Après, cela n’a rien à voir. D’abord, la politique que tu donnes en lien est juste un essai et pas une politique validée. Ensuite, les livres sous format ePub et autres ne seraient pas téléchargé sur le site (cela serait un travail de titan) mais générés sur demande (comme le PDF actuellement − quand il fonctionne).
Cdlt, VIGNERON * discut. 11 décembre 2010 à 10:57 (UTC)[répondre]

L'important est de bien distinguer le fond (c'est-à-dire le texte lui-même, et son formatage) de la forme (le format de fichier). Il faudrait que les textes soient dans un format qui permette de convertir facilement dans tous les formats. Pour le format de sortie à privilégier, PDF me semble mauvais car il fixe le rendu (sur un téléphone, les PDF sont généralement illisibles). Les formats type ePUB sont bien plus adaptés. ePUB me semble un bon candidat pour le moment, mais il faut penser à l'avenir et donc n'être pas entièrement lié à ePUB. Cela vaudrait sûrement le coup de discuter avec les développeurs de fbreader.

Essai au format epub modifier

Comme je trouve ce projet plutôt intéressant, j'ai voulu voir quelles étaient les difficultés pour convertir vers un format lisible par beaucoup de liseuse : le epub.

J'ai commencé un programme en Java pour convertir une monographie simple en epub. L'idée est de partir de la version page qui est la seule à avoir une version normalisée de l'information sur un livre via le modèle Proofreadpage_index_template (titre, auteur, page couverture et sommaire). Basé sur cette information, je récupère les pages transcluses référencées dans la table des matières pour former l'ouvrage.

Le résultat est lisible sous le plugin epubreader pour Firefox , mais des difficultés apparaissent avec le rendu : - les pages doivent être du XHTML : on retrouve le souci des id de pagenum Wikisource:Scriptorium/Novembre_2010#Bogue_de_conformit.C3.A9_HTML_et_XML_dans_MediaWiki:Proofreadpage_pagenum_template - les CSS complexes sont mal prises en compte dans Adobe Digital Editions (ADE), en particulier les lettrines ... Je suis donc obligé de faire pas mal de "corrections/simplifications" des fichiers xhtml renvoyés, et je suis sur que je n'ai pas encore vu tous les modèles.

En tout état de cause, j'ai déposé un premier exemple, issu (au hasard :-) de La Mare au Diable, sur Mare au Diable.epub pour avoir vos avis (le format epub ne semble pas être autorisé pour les versements dans Wikisource). Toto256 (d)

Je viens de télécharger et de convertir en .PDF avec Calibre. Ca produit un PDF en format variable. Les lettrines ont disparu, et il y a des alinéas de trop dans les pages de table des matières. On a quelque chose de tout à fait utilisable. Si j'ai bien compris, l'outil pour EPUB génère le fichier à partir de la table des matières de l'ouvrage. Cela vaudrait la peine d'essayer en exploitant un "texte entier" (au hasard Odes en son honneur/Texte entier). Et aussi un texte avec des notes Deux Mémoires de Henri Poincaré sur la Physique Mathématique. En dernier lieu, voir ce que ça donne pour un monument compliqué comme Essai sur l’inégalité des races humaines. J'ai l'impression que ce genre d'outil va obliger les contributeurs à penser "ouvrage convertissable" quand ils conçoivent la présentation de leur travail. Jusqu'ici, la nullité (sur Wikisource) de l'outil de conversion en PDF avait empêché d'y réfléchir; l'idée du "texte entier" étant une espèce de consolation. --Nyapa (d) 10 décembre 2010 à 01:33 (UTC)[répondre]
Bonjour. Pour générer des epub en quelques secondes j'utilise writer2epub qui est une extension OpenOffice. À partir de la page texte entier du document Wikisource je sélectionne le texte, fais un copier/coller vers OpenOffice et l'extension génère automatiquement le fichier epub. Les italiques et gras sont conservés, la table des matières est générée à partir des titres de chapitres. --Bgeslin (d) 10 décembre 2010 à 12:52 (UTC)[répondre]
Bgeslin c’est la deuxième fois que tu réussis à proposer des solutions efficaces et vraiment simples (à ma portée, c’est tout dire)  ; si tu continues je pourrai te mettre un jardin de roses comme précédemment à Kipmaster quand il a créé le classement des index.  :-) Merci, encore une fois ! --Zyephyrus (d) 10 décembre 2010 à 13:22 (UTC)[répondre]

Quelques informations utiles :

  • sur les projets Wikimedia, seul les formats libres peuvent être importer, donc en ce qui nous concerne Djvu, PDF et TIFF multipage (commons:Commons:Formats de fichiers pour la liste complète)
    • mais (sauf erreur) on n’a pas besoin d’importer un fichier donc on peut très bien faire de l’epub ou autre
  • actuellement, il existe une extension pour générer des PDFs : mw:Extension:PDF_Writer.
    • cette extension a été crée par PediaPress et se base sur le WikiTexte (et non sur le rendu XHTML 1.0 des projets Wikimedia). L’avantage est que PediaPress propose ensuite un service d’impression, l’inconvénient est que cela ne fonctionne pas sur Wikisource.

Cdlt, VIGNERON * discut. 11 décembre 2010 à 11:17 (UTC)[répondre]

Bonjour, je suis content d'avoir relancé le débat, à défaut de proposer une solution simple.
Quelques remarques :
  • je ne vois pas en quoi le format EPUB n'est pas un format libre : à ma connaissance, la spécification est librement disponible, il n'y a pas de brevet associé (il s'agit d'XML, XHTML et de ZIP ...). Il devrait être possible de mettre à disposition ces fichiers qui sont lus par la plupart des liseuses.
  • quelque soit la manière de les obtenir, je trouve qu'il faudrait un processus pour pouvoir demander leur génération et offrir une bibliothèque des ces documents. Si Wikisource souhaite être plus connu, il faut valoriser le travail de ces bénévoles en fournissant des livres utilisables directement (que ce soit en PDF ou en epub).
  • au final, comme généralement, l'objectif ne me semble pas être tant de résoudre un souci technique (on voit qu'il y a au moins 2 façons de faire et très probablement beaucoup plus) que de s'accorder sur une façon de faire pour produire un ensemble de fichiers répertoriés des oeuvres qui sont dans un état abouti.
Faut-il espérer pouvoir monter quelque chose dans le cadre de wikisource ou doit-on imaginer qu'il s'agit d'un service externe ? Toto256 (d) 11 décembre 2010 à 15:23 (UTC)[répondre]
  • Je n’ai pas dit que EPUB n’était pas libre (et tu n’as pas dit que j’avais dit que… bref arrêtons là). Pour le moment, EPUB n’est pas dans la liste des formats acceptées, cela peut probablement assez facilement changer (ou pas, à voir).
  • exactement, il nous faut un processus automatique; par contre je ne vois pas ce que tu nommes « une bibliothèque » exactement ?
  • si le souci est technique (les méthodes proposés ci-dessus ne fonctionne pas très bien et uniquement pour produire quelque fichier à la main, là on parle de milliers de livres, cela devra forcément passez par un processus automatique).
Les deux ne me semble pas incompatible : on peut faire un truc tout seul dans notre coin qui sera utilisé par un service externe, on peut utiliser un service externe que l’on utilisera tout seul dans notre coin, etc. Ceci dit, il me semble important de travailler à minima avec toutes les wikisources et éventuellement avec les devs de Mediawiki et des PediaPress.
Cdlt, VIGNERON * discut. 12 décembre 2010 à 12:54 (UTC)[répondre]

epub EST un format LIBRE Wikipedia !! Ce qui n'est parfois pas libre, ce sont les DRM Adobe, rajoutées par certains éditeurs. Personnellement, je fabrique des epub "à la volée" soit avec OpenOffice (quand j'ai un document Word), soit avec Calibre ou Sigil quand j'ai un HTML, depuis plus d'un an. Le travail est propre, et surtout peut être retravaillé très facilement. Un autre outil "en ligne" qui propose une API pour les webmestres Dotepub - rapide et simple, à condition d'avoir un document en une page, avec une feuille de style bien construite. En tout cas, je mets mon expérience des fichiers Epub à la disposition des Wikisourciens, car c'est justement dans cet objectif que j'ai commencé à explorer Wikisource à l'origine. --Hsarrazin (d) 27 février 2011 à 22:56 (UTC)[répondre]

Format pdf modifier

Voir ici. --Zyephyrus (d) 17 janvier 2011 à 17:30 (UTC)[répondre]

Des conversions manuelles modifier

Sur le site [1], je propose des ebooks dans un certain nombre de formats depuis un peu plus d’un an. Ils sont générés à partir d’un format XML que j’ai défini, à mi-chemin entre HTML et TEI. La semaine dernière, j'ai regardé comment passer de wikisource à mon format et de là aux ebooks. Pour l’instant, je pars du dump XML de wikisource et j’utilise awk et emacs pour faire le gros du travail sous contrôle manuel (environ une heure pour un premier jet d’un livre simple). J’ai fait les quatre premiers des Rougon-Macquart, et le résultat avant relecture est à [2] (publié seulement pour le bénéfice de cette discussion). --Eric Y Muller (d) 18 janvier 2011 à 03:58 (UTC)[répondre]

Exemple de présentation sur liseuse modifier

Voir ici. --Zyephyrus (d) 22 mars 2011 à 09:07 (UTC)[répondre]

Recette pauvre pour fabriquer un ebook a partir d une page affichee de Wikisource modifier

  • Principe : On extrait du wiki un fichier HTML qu'on fait traiter par un générateur d'ebooks. Pas de copier-coller, ou manipule des fichiers entiers.
  • Pratique : On part de l'affichage "imprimable" d'un fichier "texte entier" de l'ouvrage à traiter, et on élimine le code HTML en trop avant de l'envoyer au générateur d'ebooks.
  • Outils: Firefox (j'ai la version 4), Calibre (j'ai la version 0.7.54), et Notepad.exe
Sur Firefox
  • afficher la page "texte entier" et passer à l'affichage "impression"
  • sauvegarder le fichier HTML
sur Notepad
  • Ouvrir le fichier HTML avec Notepad (partir du fichier et choisir "ouvrir avec ...." ; en partant de Notepad, on a des problèmes de codage des caractères accentués).
  • Eliminer les lignes de code HTML après la 3e (dernière ligne conservée " <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> " ) jusqu'à " <!-- /jumpto --> <!-- bodytext --> " qu'on conserve.
  • Eliminer les lignes de code HTML à partir de "<!-- NewPP limit report [...] " jusqu'à la fin.
  • Rétablir les balises " </head><body> " après les trois premières lignes et " </body></html> " à la fin. (important: sinon Calibre s'égare parfois).
  • Sauvegarder le fichier en .HTML et UTF-8 (ça se fait tout seul).
  • ouvrir ce fichier avec Firefox pour vérifier que ça marche. On a un affichage avec liens en bleu, taille des caractères, centrages etc. mais sur toute la largeur de la page

technique altenative : obtenir directement la version « brute » de la page. Pour cela :

sur Calibre
  • ajouter le fichier HTML, qui devient le .ZIP de Calibre, point de départ pour les conversions.
  • ajuster les métadonnées (titre et auteur) pour ne pas égarer le résultat.
  • ajuster les instruction de conversion (page setup, structure detection, table of contents)
  • demander la conversion en EPUB. C'est presque instantané.
  • visualiser le résultat (sommaire, circulation)
  • générer les autres formats désirés.
Commentaires

La "qualité" du résultat dépend de la page traitée. C'est fait pour une page "texte entier".

Ce procédé permet de conserver la circulation intérieure du document quand on l'a définie explicitement, en particulier l'accès aux notes. La mise en forme "imprimable" conserve les liens et les ancres dans le HTML sans que cela apparaisse à l'affichage.

21/06/2011 : Essais systématiques sur des ouvrages existants avec plus ou moins de réaménagement. Voir la Catégorie:Liseuse. Les fichiers sont stockés sur mon compte Dropbox, espace public. Les indications sur la technique de génération sont dans la page de discussion.

La Légende de la mort en Basse-Bretagne d'Alexandre Le Braz, premier texte important entièrement aménagé pour la génération d'ebooks, tout en restant lisible en ligne sans curiosités.

Utilisation des restes

Le fichier HTML qui a servi à la génération peut être repris avec une version récente de Word ou Open-Office pour toutes sortes d'usages, notamment la génération de fichiers PDF mieux formattés que la sortie PDF de Calibre qui est décevante pour l'instant.

--Wuyouyuan - discuter 21 juin 2011 à 09:22 (UTC)[répondre]

Comme tu me l’as demandé, j’ai fait une série d’essais, avec les résultats suivants :
Les formats que tu fournis tout préparés ont fonctionné sans problème. \o/ et merci !
La marche à suivre ci-dessus : je n’ai pas réussi à l’appliquer sans doute à cause de différences de versions de Firefox (la mienne est antérieure). Le fichier ouvert avec Notepad ne contenait ni jumpto ni bodytext, cela aurait été long et hasardeux de retrouver des équivalents dans les métadonnées.
Néanmoins j’ai pu téléverser le fichier sur le Kindle qu’on m’a offert : j’ai utilisé Mobi Creator et créé un fichier .prc, puis ai pu continuer avec Calibre sans problème.
Calibre offre dans son menu la possibilité de supprimer un fichier dans la liseuse, mais ceci n’a pas fonctionné : le fichier antérieur périmé est toujours sur la liseuse, à côté de la nouvelle version.
Merci encore, Wuyouyuan, de tout ce que tu fais ! --Zyephyrus (d) 3 juillet 2011 à 10:17 (UTC)[répondre]

Quelques remarques modifier

Pour transformer un ouvrage se trouvant sur wikisource vers un autre format il est plus simple d'avoir le texte entier sur une seule page : il pourrait être souhaitable que le très pratique modèle <pages index="livre.djvu" header=1 /> permette optionnellement de créer automatiquement le lien Texte entier (car actuellement on ne sais trop où le placer).

Ensuite si le texte sur une seule page est bien structuré, le résultat est meilleur. L'emploi des balises wiki de chapitrage (== Chapitre ==) permet d'avoir un texte hiérarchisé. Les == sont transformées en balise HTML <H2> par MediaWiki ce qui permet ensuite aux logiciels de conversion vers un autre format de les interpréter comme Chapitre et de pouvoir générer une table des matières automatiquement. Le problème est que les contributeurs les utilisent peu, voir les effacent, car le style attaché ne correspond pas forcément au rendu voulu pour coller à la mise en page de l'ouvrage d'origine.

Une autre pratique consiste à placer les titres de chapitre, de poèmes, ou des nouvelles réunies en un volume, entre balises NOINCLUDE pour éviter la redondance avec le titre déjà présent dans le pavé de navigation juste au dessus. Le problème est alors que lorsqu'on génère la page entière il n'y a pas d'intertitres non plus. Et c'est peu exploitable.

Pour exporter correctement les texte vers un autre format il faut donc que des métadonnées (hiérarchisation, titres de sections, etc...) ne soient pas perdues en route. On pourrait imaginer les choses comme ceci : en mode rédaction des éléments sont tagués comme tels (titre de chapitre, de sous chapitre, etc), indépendamment du style utilisé ; lors de la transclusion une option permet d'afficher ou non l'élément (par exemple masquer le titre du chapitre, si le contributeur le souhaite...). La différenciation structure/forme permettrait ensuite de pouvoir générer une page d'export complète et hiérarchisée, tout en laissant une grande liberté à chacun.--Bgeslin (d) 17 avril 2011 à 15:55 (UTC)[répondre]

Je pense que c'est une mauvaise idée d’ajouter des == dans les pages. Pour obtenir une table des matières, il faut utiliser celle de l’index, comme le fait la commande <pages>. Yann (d) 17 avril 2011 à 20:01 (UTC)[répondre]
Le problème est que nos sommaires sont souvent inadaptés aux liseuses, les sommaires sont souvent présentés dans une colonne à gauche assez étroite et nous avons des sommaires ou chaque entrée est très longue.

Suivi du projet modifier


Tous les projets modifier

Remarque : avancement non mis à jour.