Contenu supprimé Contenu ajouté
ThomasV (discussion | contributions)
Ligne 112 :
::Si, comme tu le dis, les améliorations que tu as pu apporter à la couche texte sont imperceptibles, est-ce qu’elles valent la peine de se fermer des portes ? Et surtout, pourquoi ne pas les incorporer au javascript ? ça fait plusieurs fois que je te pose cette question et tu n’y as jamais vraiment répondu.
::[[Utilisateur:ThomasV|ThomasV]] ([[Discussion utilisateur:ThomasV|d]]) 22 juillet 2010 à 11:05 (UTC)
:::Ce que je dis, c'est avec des "Si", Wikisource serait complètement corrigé demain (adaptation contextuelle de Paris en bouteille), après je suis d'accord qu'il faut doser l'importance des paramètres, c'est cette évaluation qui diffère entre nous deux, et seul le futur pourra trancher (voire le passé en partie en regardant l'évolution des OCR (libres et non-libres) et les pratiques de numérisations).
:::Que dis-tu de l'aspect "expérimentation de mise en forme" évoqué plus haut ?
:::Adaptations sur les DjVuS (je n'ai pas dit sur la couche texte des DjVuS), je les liste ici (en partie, je dois en oublier) :
:::* découpage des marges blanches (très correcte pour 95% des bouquins) par la plus grande page du livre (ce qui fait que quelques bouquins ayant une seule très grande page pâtissent de cette unique page) ;
:::* diminution sensible de la taille des DjVuS (facteur 100) en passant au noir et blanc ;
:::* utilisation d'apostrophes typographiques dans tous les textes ;
:::* coordonnées de chaque mot, chaque ligne, chaque paragraphe dans la couche texte des DjVuS (contrairement au programme [[Utilisateur:Kipmaster/djvu-ocr]] qui positionne tous les mots aux coordonnées 0 0 1 1) ;
:::* création d'une couche texte spéciale WS (qui apparamment ne va pas être utile) avec prise en compte des en-têtes, des retours à la ligne qu'il ne faut pas mettre en wikitexte, des paragraphes où il faut laisse une ligne blanche en wikitexte, des césures intra-page qui sont automatiquement correctes
:::* retrait des paragraphes vides (sans aucune ligne) qui est une abération de l'OCR BnF et que les DjVuS ne supportent pas
:::* prise en compte des fucking character sets, la BnF nous fournissait des ISO-8859-1, et DjVuLibre semble avoir parfois quelques problèmes avec l'UTF-8
:::Un JS avec les features évoqué ci-dessus serait effectivement souhaitable (même pour les livres non-BnF), mais ne pourrait créer que retirer les césures et supprimer les "retours à la ligne", et encore incorrectement car les OCR ne détectent pas et n'indiquent pas les changements de paragraphe (le retrait). La couche texte du bot exploite pleinement (ça aurait bien sûr pu être encore amélioré) les métadonnées de l'OCR BnF (qui lui indique la mise en forme : en-têtes, paragraphes (et donc distinctions entre les retours à ligne de mise en page et les retours à la ligne paragraphe), et césures (d'ailleurs je sais pas le résultat sur les mots du genre "très-{retour à la ligne}important", si l'OCR BnF considère ça comme une césure).
:::Rq : pour les 640ko, ça ne m'étonnerait pas que ça ait été, du moins en partie, un argument marketing.
:::~ [[Utilisateur:Seb35|Seb35]] [[Discussion utilisateur:Seb35|<small>[^_^]</small>]] 22 juillet 2010 à 11:45 (UTC)
 
----
<references />