Wikisource:Numérisation

Cette page ne décrit pas l’état actuel du projet.
Elle est conservée pour son intérêt historique.


Accueil Projets > Numérisation
Explication des icônes : En projet ; Commencé ; En cours ; Avancé ; Terminé
Idées et projets
Idées et projets
Projet no 5 — Numérisation
En résumé En résumé :
Cette page a pour but de coordonner les différentes étapes de la numérisation à partir d'éditions papier de bonne qualité ou d'images déjà disponibles de toutes les œuvres de la littérature française qui ne se trouvent pas sur l'Internet.
  • Vous trouverez donc dans ces pages des œuvres que vous pourrez éditer si vous souhaitez participer à Wikisource.
Aide : Manuel de Wikisource

Définition du projet

modifier

De nombreux textes libres de droits sont encore introuvables sur l'Internet ; or, il suffit pour remédier à cette situation de disposer d'un scanner relativement peu coûteux, d'un bon logiciel de reconnaissance de textes (OCR), et d'être inscrit à une bibliothèque.

Un matériel modeste suffit à obtenir des textes bruts de bonne qualité quand l'édition source est bien lisible, comme cela est fait dans d'autres projets. En numérisant quelques dizaines de pages d'une bonne édition chaque jour, ce qui ne prend qu'un temps assez modeste, le résultat pourrait être très grand après plusieurs mois.

Il s'agit donc de placer sur Wikisource des textes bien numérisés, mais qui ont encore besoin d'un bon travail d'édition, dans un espace spécifique disponible pour tous (lecteurs, contributeurs, personnes participant à d'autres projets). La qualité de la numérisation doit être aussi bonne que possible : une bonne numérisation permet en effet une relecture plus simple et relativement plus rapide, dans la mesure où de nombreuses corrections sont évitées : cela ne dispense pas d'une relecture attentive, mais rend ce travail moins pénible.

Ce travail permettra principalement de mettre à disposition des contributeurs des textes à éditer dont ils ne disposeraient peut-être pas autrement.

Moyens et participations

modifier

Il est important de partir d’une édition dont la numérisation sera suffisamment satisfaisante, et qui fournissent un texte intégral. Par exemple :

  • Pléiade (quelques particularités typographiques gênent la numérisation)
  • Bouquins
  • Folio
  • etc.

De nombreux auteurs sont aujourd’hui édités dans de grandes collections qui proposent souvent des œuvres complètes.

Une autre source, qui permet d’éviter l’étape du scanner, est le site Gallica : quelques éditions sont de très bonne qualité. Vous pouvez faire une demande de reconnaissance de textes, si vous ne disposez pas d’un logiciel. Certaines photocopieuses récentes peuvent aussi fournir une version numérique des documents. Il est souvent possible d’obtenir ce service dans un magasin de reproduction pour à peine plus cher que le prix des photocopies.

Sur la base d’éditions papier, il sera possible d’obtenir de bons textes qui ne demanderont pas un travail considérable de relecture (voir :Discuter: Les Satires (Boileau), texte obtenu sans correction, à part l’effacement du titre de chaque page).

Ces textes pourraient être stockés dans un espace spécifique (Numérisation en cours), avec des informations précises sur leur état.

Pour bien avancer dans l’édition de textes, il faudrait également plusieurs types de contributeurs, correspondant aux différentes étapes de l’édition :

  • contributeurs fournissant les textes bruts ;
  • contributeurs relisant à partir d’une édition papier (ou d’images Gallica par exemple).

Une collaboration avec d’autres sites doit être envisagée, puisque ce genre de réalisations n’est pas propre à Wikisource.

Indications matérielles

modifier
  • Scanners conseillés :
    • un scanner bon marché, comme CanoScan Lide 35 est suffisant,

ou par exemple CanoScan 3200F, prix : 100 euros, vitesse : 12 sec. par page en 300 dpi

  • Format et résolution d'images nécessaires / conseillés :
    • le plus souvent une résolution de 300 dpi en noir et blanc suffit pour une bonne numérisation,
    • sinon passer à 600 dpi si les caractères sont minuscules ou en niveaux de gris si la qualité de l'image laisse à désirer
    • pour le format du fichier, prendre par exemple le TIFF multi-pages
    • attention à la compression d'image qui risque de dégrader la qualité de la reconnaissance des caractères
  • Programmes utiles
    • par exemple, AbbyyFineReader (pour un ouvrage du 19e siècle bien conservé, FineReader 7.0 lit correctement environ 99 % des caractères) ;
  • Les éditions à numériser :
    • Pléiade

Conseils d'édition

modifier
  • indiquer l'édition source ;
  • indiquer les interférences possibles (notes dans le texte, pagination, etc.) ;
  • utiliser des modèles

Participants

modifier
  • Marc : je numériserai quelques dizaines de pages régulièrement.
  • François : depuis octobre 2005, je numérise les mémoires de Raymond Poincaré.
  • Yann : candidat pour relire et corriger.
  • Zoé : je commence des articles de la Revue des Deux Mondes
  • Niladmirari : Moi et le groupe dont je fais partie (http://dicoslg.editboard.com/) numérisons des dictionnaires que nous proposons ensuite à Wikisource, Project Gutenberg et à Ebooks libres et gratuits. Tout le monde est invité. Le groupe permet de fractionner les dictionnaires et de coordonner le travail de chacun.

Textes à numériser

modifier
  • Voyages en Égypte et en Nubie... suivis d'un voyage sur la côte de la mer Rouge et à l'oasis de Jupiter Ammon par G. Belzoni ; traduits de l'anglais et accompagnés de notes par G.B. Depping, Paris : Librairie française et étrangère, 1821. 2 vol. La version mise à disposition par Gallica est-elle de qualité suffisante pour la reconnaissance optique de caractères ? Si oui, je me ferais une joie de relire et de corriger les captures que l'on mettra en ligne (ne disposant pas moi-même de logiciel d'OCR). Frédéric Mahé 26 février 2006 à 17:35 (UTC)[répondre]
Je lance le processus… rendez-vous dans quelques heures ! François 26 février 2006 à 17:40 (UTC)[répondre]
Voici pour le Tome 1 ; personnellement, je fais mes traitements (chapitre par chapitre) sur un fichier word avant de transférer sur wikisource. Si tu as des questions à me poser, n'hésite pas. Bon courage. François 26 février 2006 à 19:26 (UTC)[répondre]
et voici le Tome 2. François 26 février 2006 à 21:50 (UTC)[répondre]
  • Un certain nombre de références utilisées pour le Wikipédia peuvent être numérisées. Voir : [2] comme :
    • Le projet Dictionnaire Bouillet-Chassang (une part concerne la numérisation). Voir : [3]
    • Le Dictionnaire Weiss. Voir : [4]
    • La Biographie Mullié. Voir : [5]

Œuvres en cours de numérisations

modifier

Les résultats des numérations sont listés sur cette page, en attendant qu'un travail d'édition permette de les publier dans l'espace principal de Wikisource :

Numérisations terminées

modifier

Voir aussi

modifier


Processus de validation
1. Livres disponibles en mode page| 2. À relire | 3. À valider (notation qualité)| 4. Terminés | 5. Protégés

Livres en mode page : À formater - Trouver un scan - Trouver une source texte
Comment numériser ?