Texte établi par Marie-France Blanquet, Université Bordeaux 3 - Michel de Montaigne - IUT B (p. 39-42).

II - Constituer une base de documents numériques avec Greenstone


Le logiciel Greenstone est actuellement en phase de maturation : il offre un nombre intéressant de fonctions, une interface éprouvée et claire. Nous avons déjà vu dans le premier chapitre qu’il offre une documentation abondante sur le site.

Il dispose d’un installateur automatique : l’installation se déroule donc sans anicroches sur Windows NT. Greenstone fonctionne sur un grand nombre de systèmes : Linux pour x86 (les distributions Redhat 5.1, SUSE 6.1, Debian 2.1, Slackware 4.0 le font tourner), Solaris, et les différentes versions de Windows de la 3.1 à XP. Il fonctionne également avec Darwin (qui est également le noyau de Mac OS X), tous les systèmes Unix, et FreeBSD. En revanche, sur les systèmes Unix (dont Mac OS X), l’installation s’effectue à la console, en tapant des lignes de commande

Le lancement de Greenstone provoque l’ouverture d’une fenêtre, avec un bouton permettant de lancer l’interface proprement dite. Celle-ci est programmée en HTML, le navigateur par défaut est donc lancée, et toute l’utilisation du logiciel se fait donc avec l’interface la plus courante au monde, celle d’un site web.

Les commandes principales sont des liens, qui s’activent au passage de la souris. La page d’accueil présente cinq choix, les quatre premiers dans une liste, le cinquième à partir d’un lien isolé :

  • Collector : accès au module de modification des collections (création, modification, suppression, ajout de documents) ;
  • Administration : ajout d’utilisateurs, modification des droits, vue sur les collections, informations techniques ;
  • Greenstone : informations générales sur le logiciel, et les bibliothèques numériques en Nouvelle-Zélande ;
  • Documentation : reprend celle disponible sur le site ;
  • Et les préférences de l’utilisateur.

L’ensemble des fonctions utilisées par le documentaliste qui travaille avec Greenstone se retrouvent dans les deux premières options. Il n’utilisera quotidiennement que la première.

Les préférences permettent de configurer :

  • la langue (entre l’anglais, le français et l’espagnol) ;
  • l’encodage des caractères, afin de pouvoir utiliser les diacritiques spécifiques à chaque langue, dans notre cas l’UTF-8 est recommandé (sont également disponibles Central Europe, Western, Cyrillic);
  • l’interface : avec des graphiques ou uniquement en texte.

Le module Administration permet d’ajouter des utilisateurs, et de leur attribuer un mot de passe.

La création d’une collection s’effectue en 2 pages, correspondant à deux étapes. La première est un court formulaire qui demande :

  • le nom de la collection
  • l’adresse électronique où le logiciel enverra des rapports de bogue automatique ;
  • et d’éventuels commentaires qui doivent s’afficher en première page lorsqu’un opérateur procède à une saisie.

La seconde page sert à déterminer la structure la base ; j’ai conservé la structure par défaut sans la modifier.

Après cette étape, les ajouts de documents se font selon une procédure assez longue, mais relativement simple. On choisit d’abord la collection, puis ce qu’on veut y faire : ajouter des documents, en supprimer, ou effectuer une recherche. Le premier choix amène sur un écran contenant trois champs de saisie (voir Image 12). Il convient d’y taper (ou d’y coller) les chemins d’accès aux documents pour qu’ils soient ajoutés à la base. Trois types d’accès sont possibles :

  • soit sur le disque local ; l’invite est file:// ;
  • soit sur un disque distant via un serveur FTP, l’invite est alors ftp:// ;
  • soit sur un site internet, l’invite est alors http://.
Fichier:Chemindaccès-Greenstone.jpg
Image 12 : Saisie d'adresses des documents à ajouter à une base sous Greenstone

Après validation, une fenêtre d’attente remplace la fenêtre de saisie, pendant que le logiciel scanne les documents pour les ajouter à la base. Enfin, la procédure aboutit soit à un écran affichant la nouvelle taille de la base, soit à un message d’erreur si le document pour une raison ou une autre n’a pas pu être ajouté.

Pour chacun des trois champs, un menu déroulant permet de choisir entre chacun des trois accès, ce qui permet d’ajouter trois documents en une seule passe. On peut même demander plus de champs, qui s’ajoutent par trois (on peut donc en avoir trois, six, neuf). Cependant, je n’ai jamais réussi à ajouter trois documents (ou même deux) en une seule fois, en utilisant deux champs en même temps (voir Image 13). C’est le seul bogue que j’ai remarqué, et il pourrait être gênant, si une autre procédure d’accélération du travail n’existait pas. La fenêtre du message d’erreur ne signale pas d’où peut provenir l’erreur.

Fichier:Message-erreur-après-ajout-2-docdoc-Greenstone.jpg
Image 13 : Erreur survenue lors de l'ajout de documents sous Greenstone

En effet, il est possible, au lieu de saisir l’adresse d’un seul fichier, de saisir celle d’un dossier. Tous les documents reconnus par Greenstone contenus dans ce dossier seront ajoutés, ce qui représente une automatisation des tâches accélérant considérablement le travail.

Les documents ajoutés dans la collection de Greenstone sont scannés par le logiciel, qui crée un nouveau document texte léger, qui conserve la mise en forme de départ et tout le contenu textuel du document, mais dans un format beaucoup plus léger que l’original (PDF ou .doc). On peut ainsi supprimer les documents originaux et gagner une place utile sur le disque dur. Le logiciel indexe automatiquement l’intégralité du document texte créé.

Le module de recherche, bien que performant, est encore assez abscons dans la saisie de l’équation de recherche. Toutefois, un praticien de la recherche booléenne n’aura pas de mal à appréhender le système une fois les signes spécifiques au logiciel retenus. Lors des premières étapes d’une recherche, nous sommes en territoire connu. La recherche s’effectue dans la collection en cours, on choisit par un premier menu si elle doit porter sur le titre du document, le texte des documents ou le nom du fichier qui a été ajouté ; par un second si les résultats concernent tous les mots de la recherche ou quelques uns (voir Image 14).

On remarque également sur les différentes captures d’écran que la localisation est imparfaite : de nombreux messages sont truffés de fautes d’orthographe (Image 13).

Fichier:Menu-recherche-Greenstone.jpg
Image 14 : Recherche booléenne et résultat dans Greenstone

Il est également possible de saisir une équation de recherche directement dans un champ (voir Image 15), à l’aide des signes suivants, que j’ai trouvé peu ergonomiques, à la fois par leur mémorisation peu évidente, et leur accès peu connu au clavier (par exemple pour le tuyau) :

  • le ! (point d’exclamation) correspond à l’opérateur booléen et pas ;
  • le & (esperluette) correspond à l’opérateur booléen et ;

le | (tuyau ou pipe) correspond à l’opérateur booléen ou ;

  • on peut également utiliser les parenthèses.

Ce sont les seules fonctions booléennes disponibles dans Greenstone : il n’y a ni opérateur de proximité, ni troncature, ni comparateur.

Fichier:Résultatsrecherche-Greenstone.jpg
Image 15 : Menus de recherche dans Greenstone

Une fois la recherche effectuée, les résultats sont accessibles de deux façons :

  • soit dans le document original (PDF par exemple) en cliquant sur l’icône PDF ;
  • soit dans le document texte produit par Greenstone lors de la constitution de la collection, accessible par l’icône de document texte.