« Aide:Ressources libres de droit » : différence entre les versions

Contenu supprimé Contenu ajouté
Marc (discussion | contributions)
Marc (discussion | contributions)
Ligne 70 :
=== OCR brutes ===
 
Certains sites proposent des OCR (c’est-à-dire des textes produits par un programme de reconnaissance) avec les fac-similés. Selon les ouvrages, ces OCR présentent plus ou moins de fautes, ce qui exige souvent un important travail de correction. Néanmoins, les OCR sont parfois presque parfaits (cas assez fréquent pour Google Livres) et permettent donc un gain de temps considérable.
''Selon les ouvrages, présence de nombreuses fautes, un important travail de correction risque de s’avérer nécessaire.''
 
* [http://gallica.bnf.fr/Search?idArk=&n=15&p=1&lang=FR&adva=1&adv=1&reset=&urlReferer=%2Fadvancedsearch%3Flang%3DFR&enreg=&tri=&catsel1=f_title&cat1=&ope2=MUST&catsel2=f_creator&cat2=&ope3=MUST&catsel3=f_tdm&cat3=&date=daTo&daFr=&daTo=&t_nqamoyen=altoHQ&sel_provenance_Part=toutPartenaires&sel_provenance_Edist=toutSNE&sel_source=toutSources&dateMiseEnLigne=indexDateFrom&firstIndexationDateDebut=&firstIndexationDateFin=&t_free_access=fayes&tri=&submit2=Lancer+la+recherche Gallica, documents en mode texte] (ne pas confondre avec Gallica en mode image qui délivre des documents d’excellente qualité).
:* Le texte présent sur Gallica est produit automatiquement par un logiciel de reconnaissance optique de caractères. La qualité est toujours supérieure à 60 % : 91,8 % des ouvrages ont une qualité de texte supérieure à 80 % ; 76,5 % une qualité supérieure à 90 % et 22,5 % une qualité supérieure à 99,9 % soit presque parfaits (calcul effectué d’après les données disponibles en ligne, sur les 79067 titres avec mode texte le 23 octobre 2009, d’après la possibilité de classer les ouvrages selon la qualité du mode texte et de voir la qualité du texte en cliquant sur "« afficher le texte brut" »).
 
* Google Books propose toujours un texte associé aux images (lien "« texte brut" ») et souvent un texte téléchargeable en format Epub (qui peut être converti en .txt). L'OCR est souvent excellent, car il utilise les mêmes ressources linguistiques que Google Trad. Mais les textes dans une langue inconnue ne sont pas déchiffrés. Exemple amusant : les pages de généalogie de la Bible, avec l'accumulationl’accumulation de noms propres. Il peut être intéressant de reprendre ce texte brut par copier-coller.
 
* Google Books propose toujours un texte associé aux images (lien "texte brut") et souvent un texte téléchargeable en format Epub (qui peut être converti en .txt). L'OCR est souvent excellent, car il utilise les mêmes ressources linguistiques que Google Trad. Mais les textes dans une langue inconnue ne sont pas déchiffrés. Exemple amusant: les pages de généalogie de la Bible, avec l'accumulation de noms propres. Il peut être intéressant de reprendre ce texte brut par copier-coller.
 
=== Par thèmes ===