« Wikisource:Gallica » : différence entre les versions

Contenu supprimé Contenu ajouté

Intégrés

Version du 8 janvier 2006 à 12:01

Archives déplacées du Scriptorium. Yann 8 janvier 2006 à 12:01 (UTC)[répondre]

Gallica

je suppose que ça intéresse tout le monde: http://meta.wikimedia.org/wiki/Wikisource_and_Gallica résumé: je voudrais copier tout gallica vers wikisource. je voudrais savoir si j'ai le droit. toute participation sur la page de meta est bienvenue (en français aussi) ThomasV 2 sep 2005 à 10:23 (UTC)

Thomas, il y a quelques jours, un peu par hasard, je suis tombé sur cela :

http://mail.wikipedia.org/pipermail/wikifr-l/2005-May/002837.html (c'est le point d'entrée d'une discussion concernant le droit des images provenant de Gallica). Il y a donc des gens qui discute de cela dans wikimedia ou wikipedia ; il serait intéressant de les contacter afin d'entreprendre une démarche globale concernant l'accès aux documents de Gallica.

Je ne connais pas bien la loi, je vais donc essayer d'y regarder de plus près. Ce que j'ai compris des arguments de ceux qui veulent protéger de textes de domaine public stockés dans leur base est la chose suivante, mais je ne sais pas si cela est la loi : C'est la base de données qui est protégée ; à partir du moment où l'oeuvre qui y est stockée a subi un traitement spécifique, ils considèrent qu'il n'est pas possible à n'importe qui d'utiliser le résultat de ce traitement sans accord préalable. En quelque sorte, le fait de faire un OCR et d'avoir ainsi une oeuvre en mode texte (avec relecture, correction, ...) fait que ce traitement est protégé, et qu'il ne seriat pas possible d'en faire une copie.

Peut-être même que le fait de faire le scan est aussi protégé ? Dans l'absolu, si on suit ce raisonnement, il nous faudrait faire nous même le scan de l'oeuvre pour, à leurs yeux, être sans reproche. Ce qui n'est bien sûr pas possible pour des oeuvres dont il n'existe plus, hors des bibliotèques publiques, de possibilité de l'acquérir.

Il reste donc à voir si cette version des possesseurs de base de données est correcte vis à vis de la loi, et je vais essayer de lire les liens que tu as communiqué sur Méta.

Mon opinion a priori sur le sujet est que : (1) Gallica est un service public (donc payé par nous) chargé de diffuser le plus largement possible les oeuvres de langue française (et particulièrement les oeuvres françaises). Wikisource ayant le même objectif, je ne vois pas ce qui pourrait les empêcher de faire une copie de ces oeuvres. Le problème peut se poser si Wikisource désire commercialiser des CD-ROM, sauf peut-être à être en association à but non lucratif.

(2) L'utilisation d'un robot pour récupérer l'ensemble des oeuvres en mode texte peut être considéré comme "agressif". Il serait nécessaire de leur demander l'autorisation auparavant je pense.

(3) Il n'est pas certain que les OCRs de Gallica soient de bonne qualité (cf une remarque faite en mai dernier sur le scriptorium Wikisource par la personne responsable de ebooksgratuit). Je crois qu'il est préférable de laisser chacun regarder, parmis toutes les versions disponibles sur le web, laquelle est la meilleure en terme de qualité. C'est ce que j'ai fait pour Notre-Dame de Paris, où certaines versions textes n'avaient pas les accents !!!

(4) à suivre François 2 sep 2005 à 11:53 (UTC)

Tout cela est très confus, et ce que j'ai compris, c'est :

Le code de la propriété intellectuelle définit au livre I la notion d'oeuvre de l'esprit.
Une base de données est une oeuvre de l'esprit en tant que structure.
Le contenu d'une base de données ne peut être recopié de manière substantielle.
Problème : le contenu libre de droit d'une base de données devrait pouvoir être recopié librement, si la structure n'est pas recopiée. C'est déjà ce que nous faisons.

Voici un lien vers une demande relative à des enluminures qui avait été faite par un contributeur de Wikipédia : [1]. L'autorisation avait été donnée, mais il reste manifestement des problèmes de copyright. Marc 2 sep 2005 à 14:19 (UTC)

Et à lire ceci : m:Closure of French Wikiquote, il y a de quoi faire réflechir. Je signale que l'association française semble reculer dès qu'il y a l'ombre d'un soupçon d'un procès : cf. le cas du château de je sais plus où, qui a fait scandale il n'y a pas longtemps. Marc 2 sep 2005 à 14:49 (UTC)

Pour François : l'OCR ne produit pas de droit, car il n'y a aucune création dans ce procédé. J'avais fait des recherches sur ce point, et rien, mais vraiment rien, n'indiquait qu'il y aurait un droit intellectuel sur un texte traité de cette manière. Bien au contraire, j'ai toujours lu le contraire, ce qui, en soi, n'est pas une preuve, mais je ne crois pas que le droit dise autre chose. Deux personnes sont venues sur Wikisource à la suite de copies de textes de leur site (Spinoza et nous et Remacles), et elles n'ont rien réclamé, à part la mention de la source. J'avais envoyé un mail à J.P. Remacles pour lui expliqué les buts de Wikisource, et il n'a rien répondu. J'ai également signalé à J.M. Tremblay que j'avais copié quelques uns des textes de son site, et il n'a rien répondu non plus. Le site Spinoza et nous a demandé une mention de la source. Le site ebooks, constatant que nous copions certains de leurs textes a même ajouté un lien vers Wikisource... S'il y avait le moindre problème sur ce point, je ne pense pas que ces personnes auraient accepté tacitement la copie des textes qu'elles ont elles-mêmes édités. Aucune n'a insisté pour que soit respecté strictement un droit particulier sur ces textes. Marc 2 sep 2005 à 15:03 (UTC)

Marc, toutes mes excuses pour mon texte confus ; il faut dire que je l'ai rédigé juste avant de conduire mes gamins à l'école, et je n'ai pas eu le courage par la suite de le relire.

J'ai commencé la lecture du code de la propriété intellectuelle, ainsi que les pages que tu as indiqué en lien. Je ne suis pas juriste, mais je vais quand même essayer de faire une "explication de texte" de la loi. Cela pourra nous servir de point de réflexion.

Donc à bientôt. François 2 sep 2005 à 19:59 (UTC)

non, c'est moi qui te présente des excuses, car, en fait, quand je disais confus, je pensais à l'idée que l'on peut se faire de la question à partir des textes de lois ; je ne parlais pas de ce que tu as écrit. Ce qui est confus, c'est aussi les réponses que l'on obtient quand on pose des questions sur ces sujets. Pour te faire une idée de tout cela, je t'invite à lire les nombreuses discussions sur Wikipédia. Donc, la confusion est aussi dans mon esprit, pas dans ton texte... Marc 2 sep 2005 à 20:57 (UTC)

Marc, je commence à comprendre certaines choses. La confusion que l'on peut avoir vient du fait que le code de la propriété intellectuelle fait référence à DEUX TYPES de droits : les droits d'auteur d'une part, et les droits d'exploitant de base de données d'autre part. Ces derniers sont principalement définis aux articles L342-1 à L342-5 du code.

En clair, Gallica ne peut pas nous empêcher de publier une oeuvre du domaine public (70 ans après la mort de l'auteur, sauf d'éventuelles exceptions mais le pb n'est pas là). Par contre, Gallica pourrait, s'il le voulait, nous empêcher d'utiliser sa base de données pour récupérer ces oeuvres et nous dire "débrouillez-vous pour faire le scan vous même". Nuançons cependant par la lecture du "droit d'auteur" de Gallica, qui est en fait un "droit d'exploitant de base de données". Celui-ci est le suivant ( http://gallica.bnf.fr/ ) : La Bibliothèque nationale de France est titulaire des droits d'auteur sur le site "Gallica". Pour un usage strictement privé, la reproduction du contenu de ce site est libre. Dans le cadre de communication, d'édition ou autres actions à caractère professionnel, ne sont autorisées que les courtes citations sous réserve de la mention BnF/Gallica. Tout autre reproduction ou représentation, intégrale ou substantielle du contenu de ce site, par quelque procédé que ce soit, doit faire l'objet d'une autorisation expresse de la BnF.

Là où le danger s'amenuise pour l'instant, c'est dans l'expression reproduction [...] intégrale ou substantielle. Il est évident que wikisource ne possède pas une telle volumétrie pour être considérée comme ne serait-ce que substantielle. Par contre, si à l'avenir une telle volumétrie apparaissait, il faudrait obtenir cette autorisation expresse. En attendant, l'utilisation d'un robot pour récupérer les données "textes" de Gallica ne me parait pas être une bonne idée (pour l'instant). Quand à la notion de substantielle, il est possible de se référer à la licence du site Légifrance ( http://www.legifrance.gouv.fr/html/licences/licences_notice.htm ).

Il est à noter que le problème Gallica est en fait le problème de toutes les bases de données offrant des textes. Il faudrait donc demander, de manière formelle à tous les exploitants de telles bases une autorisation expresse.

Je prépare un texte sur les différents "droits" (sauf la partie brevet qui ne nous intéresse pas) du code de la propriété intellectuelle. Patience ...

A noter en passant, mais j'ouvrirai une discussion sur ce sujet, que la licence GFDL n'est pas appropriée pour le contenu de notre site (car elle autorise la modification d'un texte, ce qui est contraire à une partie du droit d'auteur (article L121-1) qui spécifie que "L'auteur jouit du droit au respect [...] de son oeuvre. Ce droit est [...] perpétuel, inaliénable et imprescriptible.") François 2 sep 2005 à 22:42 (UTC)

je vais peut être demander une autorisation à la bnf. mais j'ai recu des avis contradictoires. comme il s'agit d'une administration, il est possible que la personne qui me réponde dise non simplement pour avoir moins de travail... ThomasV 3 sep 2005 à 07:16 (UTC)

Je pense qu'il faut prendre rendez-vous, les gens refusent moins facilement quand ils sont en face à face que par courrier ou téléphone. Si rendez-vous il y a, il vaut mieux préparer préalablement un dossier qui : (1) définit ce que l'on veut exactement ; (2) argumente en tenant compte de la volonté politique actuelle (bibliothèsque européenne concurrente de Google, et on (le wikisource français mais aussi les autres wikisources européens) peut peut-être participer à cette bibliothèque européenne.

Pour cela, je rajoute ce texte là Discours du Président de la République Française - 2 mai 2005 qui concerne la bibliothèque virtuel universelle. Voici quelques extraits : [..] Dans un monde qui semble ne réserver qu'une place sans cesse plus restreinte à tout ce qui ne concourt pas immédiatement à la recherche du profit, les cultures doivent aussi résister à la déferlante de produits standardisés. Nous devons défendre résolument la diversité des cultures dans le monde, car l'uniformisation serait, un danger immense. Pour cela, la vitalité de notre création constitue l'un de nos atouts les plus précieux. ce qui correspond aux objectifs de wikisource, non ? [..] Nous reconnaissons aussi que la culture ne peut pas être livrée au jeu du marché, pas plus qu'elle ne doit être inféodée à l'État. La concentration menace la diversité culturelle au même titre que la concurrence sauvage. Il est donc nécessaire et légitime que la puissance publique - c'est-à -dire nos États, c'est-à -dire aussi l'Europe - intervienne comme garante de la liberté d'expression et de la diversité culturelle. Là clairement, Chirac demande la diffusion la plus large possible de la diversité culturelle, donc des oeuvres contenues dans les bibliothèques. [...] Ainsi, dans le domaine de la propriété intellectuelle, nous avons réalisé une harmonisation européenne par le haut, qui consacre la conception la plus exigeante du droit d'auteur. Ensemble, nous devons maintenant aller plus loin pour mieux lutter notamment contre la piraterie. Wikisource respecte bien évidemment les droits d'auteur en ne prenant que des textes tombés dans le domaine public. [...] Là encore, le Traité constitutionnel permet un progrès décisif. Désormais, la diversité culturelle est élevée au rang des objectifs fondamentaux de l'Union. Là aussi, nous sommes en droite ligne des objectifs politques européens. [...] Grâce au Traité constitutionnel, le socle de l'Europe de la culture est donc solidement ancré dans l'affirmation des compétences respectives des États et de l'Union européenne. Sur cette base, celle-ci doit maintenant se doter d'une véritable ambition culturelle. L'adhésion des citoyens à son projet en sera sans aucun doute renforcée. Elle trouvera son propre champ d'action en encourageant ses cultures à dialoguer entre elles. C'est pour cela qu'elle doit avant tout se mobiliser. Nous pourrons ainsi faire davantage pour améliorer la circulation des oeuvres européennes. Celles-ci ne traversent pas suffisamment les frontières intérieures de l'Union. Dans chaque pays, les cultures des autres États-membres ne sont pas assez présentes. ce qui est également un des objectifs de Wikisource. C'est dans le même esprit que j'ai proposé une initiative afin de créer une bibliothèque virtuelle européenne. Il s'agit d'un enjeu essentiel pour que l'Europe occupe toute sa place dans la future géographie de la connaissance. Demain, ce qui ne sera pas numérisé et rendu accessible en ligne risque d'être tout simplement négligé, pour ne pas dire peut-être oublié. Or, notre continent a de grands atouts à faire valoir : non seulement la richesse des fonds de nos institutions patrimoniales, notamment nos bibliothèques, mais aussi le savoir-faire de nos entreprises dans le domaine de la numérisation et de l'indexation des fonds numérisés.

A nous de savoir mettre ces atouts en valeur en fédérant nos actions, et en les mettant en réseau pour les démultiplier. A nous de savoir aussi engager ensemble l'effort indispensable de recherche et de développement pour conforter notre maîtrise des enjeux technologiques, qui sont tout à fait essentiels. Le programme de développement d'un nouveau moteur de recherche franco-allemand, que nous avons lancé la semaine dernière avec le chancelier, va naturellement s'articuler étroitement avec ce projet. [...] A travers des initiatives comme celle-ci, l'Europe sera aux avant-postes du combat pour la diversité culturelle : c'est sa vocation profonde, et c'est un enjeu fondamental pour le monde d'aujourd'hui.

De quoi s'agit-il concrètement ? De reconnaître que la culture n'est pas une marchandise, qu'elle ne peut donc être abandonnée au jeu aveugle du marché. C'est la conviction qui nous anime dans la construction de l'Europe, mais transposée à la mondialisation.

François 3 sep 2005 à 09:03 (UTC)

Bonjour,

À mon avis, les prétensions de Gallica sont abusives (comme d'autres organisations, i.e. l'Académie, les Musées nationaux, etc.). Tous les textes sont dans le domaine public, et on ne veut copier que le contenu pas la base de données elle-même. Yann 3 sep 2005 à 20:52 (UTC)

Sur le contenu, je crois que tout le monde est d'accord. En fait, je me demande où est le problème. Pour ma part, j'ai déjà recopié quelques sites de manière assez substantielle (sites sur Maupassant, Sade, Balzac, et d'autres). Et comme je le disais plus haut pour l'OCR, certaines personnes se sont manifestées et n'ont jamais évoqué un droit quelconque sur ces textes, alors que la perspective de voir leur site entièrement recopié était explicite. Néanmoins, dans ces cas, il ne s'agit pas de plusieurs centaines de textes. Peut-être devrions-nous tout simplement agir, en commançant par envoyer un courier à Galica, et ensuite commencer à recopier. De toute façon, un point qui me semble important, c'est que si on ne le fait pas en une fois, on le fera de toute façon manuellement à plus long terme, car nous avons déjà commencé à le faire. Sinon, autant dire tout de suite que Wikisource est illégal, car il est évident que dans quelques années, avec les principes actuels et si les choses se développent bien, Wikisource contiendra une grande parite de tous les sites qui proposent des textes. Marc 3 sep 2005 à 21:20 (UTC)

Yann, Marc,

Le problème est que le code de la propriété intellectuelle protège les possesseurs de base de données en leur donnant la possibilité d'interdire aux utilisateurs de cette base d'effectuer des extractions substancielles. Ils ont LE DROIT de pouvoir interdire, mais non LE DEVOIR. En conséquence, les propriétaires des bases de données que Marc a précédemment utilisées n'ont pas usé de ce droit, et c'est tant mieux pour nous.

Voici les articles les plus problématiques à mes yeux :

Article L341-1 : Le producteur d'une base de données, entendu comme la personne qui prend l'initiative et le risque des investissements correspondants, bénéficie d'une protection du contenu de la base lorsque la constitution, la vérification ou la présentation de celui-ci atteste d'un investissement financier, matériel ou humain substantiel. Cette protection est indépendante et s'exerce sans préjudice de celles résultant du droit d'auteur ou d'un autre droit sur la base de données ou un de ses éléments constitutifs.

Article L342-1 : Le producteur de bases de données a le droit d'interdire :

1º L'extraction, par transfert permanent ou temporaire de la totalité ou d'une partie qualitativement ou quantitativement substantielle du contenu d'une base de données sur un autre support, par tout moyen et sous toute forme que ce soit ;

2º La réutilisation, par la mise à la disposition du public de la totalité ou d'une partie qualitativement ou quantitativement substantielle du contenu de la base, quelle qu'en soit la forme.

Ces droits peuvent être transmis ou cédés ou faire l'objet d'une licence.

Article L342-2 : Le producteur peut également interdire l'extraction ou la réutilisation répétée et systématique de parties qualitativement ou quantitativement non substantielles du contenu de la base lorsque ces opérations excèdent manifestement les conditions d'utilisation normale de la base de données.

Comme on peut le lire, il suffit d'invoquer un investissement important pour que le droit de protection de la base existe ; ensuite, le propriétaire peut ou non interdire l'extraction des données si celle-ci s'effectue de manière substantielle (en qualité OU en qualité). Et ce même si le nouveau format de stockage / d'affichage des données est différent du format présent dans la base de données initiales.

Donc, que la position de Gallica et des autres soient abusives ne change rien au fait qu'ils ont, en toute légalité, la possibilité d'interdire les extractions substantielles. Et que c'est ce qui est fait "par défaut" pour les grosses bases.

Le fait qu'il y ait la notion de substantielle fait que, pour l'instant, Wikisource n'est pas en danger. Mais si notre projet se développe, le risque juridique augmentera de fait. Le problème pour Gallica sera de prouver que les oeuvres viennent de chez eux ; sur la plupart des oeuvres classiques, les sources sont multiples et la preuve sera difficile à établir. Par contre, si wikisource inclut des documents rares, ...

L'article L342-2 est le pire de tous, puisqu'il retire la notion de substantielle pour la remmplacer par répétée et systématique. C'est le systématique qui fait que je déconseille l'utilisation d'un robot. Si on a une action répétéee mais non systématique (c'est le cas pour moi des extractions manuelles), la condition initiale de cet article ne s'applique pas (à cause du ET).

Je pense que non seulement on peut, mais on doit faire une demande de licence. En argumentant avec la volonté politique du moment, je ne vois pas comment Gallica pourrait nous refuser d'utiliser son contenu, puisque tel est la demande implicite du chef de l'état.

Cette action doit cependant être coordonnée avec les autres projets wiki.François 3 sep 2005 à 22:44 (UTC)

il faut lire ces textes de loi en gardant à l'esprit qu'ils ont été conçus pour s'appliquer à toutes les bases de données, que leur contenu soit ou non dans le domaine public. L'esprit de la loi, à mon avis, est de protéger une entreprise qui constitue une bdd dont les entrées individuelles sont difficilement protégeable. Exemple: imaginons le cas d'une entreprise qui vend des informations sur la santé financière des autres entreprises. il est impossible d'affirmer qu'une entrée individuelle de la bdd est sous copyright; au contraire, c'est une info publique. La loi est là pour protéger la valeur ajoutée par l'entreprise, c.à.d. le fait d'avoir rassemblé l'information pertinente dans une bdd, et de l'avoir formatée convenablement. Idem pour une bdd de brevets sur un domaine particulier, ou bien d'informations scientifiques sur un domazine précis. Je pense qu'il serait ridicule pour un service public de se servir d'une loi destinée à protéger les intérêts d'entreprises. Aux Etats-Unis, ça ne serait même pas autorisé: toute information produite avec l'argent des contribuables est publique. En France ça ne marche pas comme ça, le secteur public a beaucoup plus de droits. Et connaissant le fonctionnement de certaines administrations, je prévois qu'une lettre de demande de ma part risque de tomber entre les mains d'une personne pas forcément habilitée à délivrer des autorisations. Cette personne se posera peut-être les questions suivantes (peut-être de manière inconsciente) : "Comment minimiser la somme de travail que va me procurer cette lettre?", ainsi que "Comment limiter ma responsabilité en cas de faute?". En cas de doute de sa part (et la loi est floue), et si son chef n'est pas joignable, cette personne aura naturellement tendance à répondre non... C'est pour ça que j'hésite à faire une lettre. Quant au discours du chef de l'Etat, on sait ce que ça vaut. ThomasV 4 sep 2005 à 08:29 (UTC)

Thomas, je suis d'accord avec toi pour dire que très probablement la loi n'a pas été écrite "pour Gallica", mais plutôt pour des bases de données scientifiques comme celle du Généthon (éviter qu'elle soit pillée par les étrangers). Je suis également d'accord pour dire qu'une lettre qui tombe dans les mains d'un fonctionnaire "qui a peur ou qui s'en fout" aura une réponse trop évasive, voire négative. Il faut peut-être alors écrire au ministère de la Culture dont dépend la BNF. Quand au discours du chef de l'état, il a son importance car il donne un axe, une volonté politique. Il nous sera très facile par la suite d'aller voir "Le Monde" ou "Libération" ou n'importe quel autre média avec un refus à notre demande d'un côté, le discours du président de l'autre ... Cela fait toujours mauvais effet, et les fonctionnaires avec qui on pourrait être en contact le savent (en tout cas, c'est l'arme que j'utiliserai si les négociations tournent mal). Je suis volontaire pour t'aider dans ces démarches, et je peux essayer de venir à Paris en rendez-vous si besoin est (car je reste persuadé qu'un contact visuel est toujours plus efficace). En attendant, il faut essayer de trouver le bon interlocuteur et rechercher les organigrammes de la BNF et du ministère. François 4 sep 2005 à 10:08 (UTC)

Je ne pense pas que la loi sur les bases de données s'applique à notre cas, car on ne veut pas recopier la structure de la base de données, mais son contenu, justement parce que Wikisource propose une structure différente (un wiki). Recopier la base de données de Gallica n'aurait aucun intérêt. Ceci dit, je suis pour faire une démarche officielle auprès de la BNF, mais ça ne doit pas nous empêcher de copier des textes, quelque soit la réponse. Yann 4 sep 2005 à 10:20 (UTC)

On pourrait commencer par envoyer un courrier, histoire d'avancer un peu, et surtout d'être fixé, car si la réponse est "oui, vous pouvez copier nos textes", il n'y aura plus lieu de se poser des questions. Et si la réponse est négative, on pourra envisager de suivre les propositions intéressantes de François. Marc 4 sep 2005 à 18:31 (UTC)

Je me permets de vous faire part d'une réflexion : Quel est l'utilité de copier une partie substantielle de la base de donnée Gallica ? En effet :

En France, Gallica est plus connu que Wikisource. Les utilisateurs ne trouvant pas un texte donné sur Wikisource iront cherchez sur Gallica également (s'ils ne l'ont pas fait en premier).
La quantité de textes intéressants à transcrire électroniquement au format texte est GIGANTESQUE... Pourquoi ne pas continuer notre petit bonhomme de chemin sur des textes originaux (au sens qu'ils ne sont pas disponibles au format texte sur Gallica ou sur toute autre grande base) ?

Ainsi Wikisource se doterait d'un contenu original complémentaire, et l'avenir nous dira si nous devons dupliquer certains textes.

Il serait peut-être même intéressant de mettre des pages de renvoi vers les textes Gallica et autres plutôt que de les importer ?

David Jourand 4 sep 2005 à 20:54 (UTC)

Marc, Thomas m'a indiqué le nom d'un wikipédien juriste. Je vais donc le contacter et lui demander s'il accepte de nous donner un coup de main sur ce dossier, ainsi que quelques conseils. Je ne suis pas juriste, et probablement qu'il n'en existe pas actuellement sur le projet.

Jourand, ta remarque est intéressante ; cependant, je la nuancerai de deux manières ; (1) même si le format initial n'est pas le format final (ex : format PDF en initial, texte en final), le propriétaire de la base de données peut interdire des extractions qualitativement OU quantitativement substantielles. Même si actuellement il nous est impossible d'avoir de tels volumes d'extraction, rien ne dit qu'à l'avenir cela ne puisse pas être. (2) il est très probable que Gallica fournira les principales oeuvres classiques françaises en mode PDF et en mode texte. Et que donc, dans ce domaine, elle devienne notre principal fournisseur. Or, wikisource, pour se "vendre" auprès du grand public et surtout auprès des collèges, lycées et universitées, devra : (a) fournir en mode texte les principales oeuvres classiques française ; (b) en faire une présentation agréable ; (c) avoir validé par relecture ces oeuvres (c'est actuellement le point faible de wikisource).François 5 sep 2005 à 21:01 (UTC)

Dans ce cas je pense que la meilleure démarche consiste à initier les négociations avec Gallica, non pas au niveau de Wikisiource, mais de la fondation Wikimedia France pour tous les projets Wikimedia.

David Jourand 5 sep 2005 à 22:03 (UTC)

Est-ce que vous avez pensé à vous adresser non pas à Gallica, mais à l'auteur des numérisations, lorsque cet auteur est différent de Gallica, par exemple on lit la mention "Document fourni par les éditions Acamedia" http://www.acamedia.fr en haut des mémoire d'outre-tombe en ligne : http://visualiseur.bnf.fr/Visualiseur?Destination=Gallica&O=NUMM-101350 --Teofilo 11 sep 2005 à 18:39 (UTC)

Je pense que cela dépend du contrat liant Gallica et les éditions Acamédia. Si ces derniers sont "prestataire technique" de Gallica et qu'ils sont rémunérés pour faire le travail de scan, alors la "propriété" de ce travail et donc de l'objet (le résultat du scan) qui sera stocké en base de données appartient très probablement à Gallica. De toute manière, la loi semble indiquer que ce qui est protégé est aussi "l'investissement" de création et de gestion de la base de données, et non pas uniquement les données elles-même. Ce qui signifie que même si les données sont fournies gratuitement par d'autres, l'investissement de création de la base de données serait un élément suffisant pour bloquer son utilisation au motif des articles L342-x.

Avec une semaine de retard, et je vous prie pour cela de bien vouloir m'en excuser, j'ai contacté ce soir, sur les conseils de Thomas, un "wikipédien" spécialiste du droit d'auteur et qui travaille à protéger juridiquement les travaux réalisés sur wikipédia. J'espère qu'il viendra nous éclairer de ses lumières. François 11 sep 2005 à 20:48 (UTC)

à ma connaissance, l'acte de numériser une oeuvre ne donne aucun droit dessus. le seul aspect problématique est l'aspect base de données. ThomasV 11 sep 2005 à 20:59 (UTC)

Au delà du débat juridique sur l'utilisation de la base de données, je me pose des questions sur le fond de la question, c'est à dire sur l'intérêt de la chose. Vous pensez bien que nous (Ebooks libres et gratuits) nous sommes cette question depuis un moment... Alors, analysons le contenu de Gallica (j'y passe des heures chaque semaine...) :

En mode texte :

- Les textes faits par Acamedia et Bibliopolis ne sont probablement pas "libres" car ils ont fait l'objet de vente commerciale sous forme de CD Rom. Donc, si vous voulez les reprendre, il vaut mieux le faire "au coup par coup", "discrètement". Par ailleurs, il faut, au strict minimum, utiliser un correcteur orthographique et grammatical avec ces textes, pour enlever les fautes les plus grossières. Et une relecture est loin d'être un luxe... Ceci étant dit, ils sont utilisables comme base de travail. - Les textes de la base Frantext réalisée par l'Institut National de la Langue Française, qui représente la majorité des textes : là, c'est la catastrophe, c'est presque de l'OCR brut, que je considère comme inutilisable et même offensant pour la littérature! Après quelques tentatives, nous considérons qu'il est beaucoup plus rentable de refaire l'OCR, puisque ces textes existent en général également, sur Gallica, sous forme de PDF image.

Pour le mode image (PDF), la qualité de scan est très variable. De plus, certains PDF sont incomplets, et il est très désagréable de s'apercevoir, au milieu du livre, après des jours de travail, qu'il manque 10 pages... (expérience vécue dans notre groupe...). Etant donné que récupérer un PDF image est très simple, et par contre, faire l'OCR, le corriger, etc, etc est très long, il me semble raisonnable de les récupérer manuellement, de les vérifier pour voir s'ils sont complets, et d'étudier au cas par cas leur qualité.

Une dernière chose, qui n'a rien à voir, mais qui peut intéresser tous les utilisateurs de FineReader (le meilleur logiciel d'OCR de mon point de vue). Une fois que vous avez fait l'OCR du fichier PDF image de Gallica, pensez à effectuer également une sortie PDF en choisissant, comme paramètres de format - qualité moyenne ou 200 pp et texte sous l'image : vous obtiendrz ainsi un PDF qui, non seulement sera plus compact, mais sur lequel vous pourrez effectuer des recherches en mode texte, ce qui est génial lorsqu'on veut travailler et corriger le texte ensuite. Coolmicro 16 déc 2005 à 04:22 (UTC)

Merci, merci et encore merci à Coolmicro de m'avoir indiqué le logiciel FineReader, que je ne connaissais pas, et qui va me permettre d'avancer nettement plus vite dans l'OCR ; le précédent logiciel que j'utilisais n'acceptait pas les PDF entiers, et il fallait que je découpe chaque fichier PDF en image (une par page) avec le bouton snapshot d'abobe ; de plus, le logiciel que j'utilisais avait plus de mal à reconnaître les caractères, ce qui rallonge les "corrections". Donc je vais investir quelques dizaines d'euros, c'est sûr ...

Quand au fond (Gallica), je suis tout à fait d'accord. Je rajouterais que le téléchargement complet d'un PDF image est parfois compliqué, même avec un logiciel FTP avec reprise, et il m'est arrivé de ne pas réussir l'opération, malgré plusieurs tentatives. François 17 décembre 2005 à 09:03 (UTC)[répondre]

« Wikisource:Gallica » : différence entre les versions

Version du 8 janvier 2006 à 12:01

Gallica

« Wikisource:Gallica » : différence entre les versions