Ouvrir le menu principal

Aide:Ressources libres de droit/HathiTrust

DescriptionModifier

Script pour récupérer les images du site HathiTrust.

UtilisationModifier

Pour télécharger les images d’un livre accessible directement ou par un proxy sur le site Hathi Trust, il faut :

  • un code d’identification du livre, de la forme : uc1.b312026, que vous trouverez à la fin de l’adresse url du livre que vous consultez, après « id= ».
  • le nombre d’images à télécharger, qui n’est pas identique à la pagination du livre donnée dans la fiche bibliographique. Vous devez vous-même regarder le numéro de la dernière page (valeur de « seq= » dans l’url de cette page).
  • si le livre n’est accessible que par un proxy, se procurer une adresse de type xxx.xxx.xxx.xx:xxxx correspondant à un proxy aux États-Unis (une recherche dans un moteur de recherche permet de trouver des sites qui fournissent des listes de proxy).
  • copier dans un fichier HathiTrust.sh, en fournissant les informations nécessaires :
book="XXX.XXXXXXXXX"
lastpage="dernière page à télécharger"
export http_proxy="xxx.xxx.xxx.xx:xxxx"
for i in $(seq 0 $lastpage); do
p="http://services.hathitrust.org/htd/pageimage/$book/$i"
wget -U DummyBrowser/0.1 $p -O page_`printf %04d $i`.jp2;
done
  • enfin, dans un terminal, en se plaçant dans le dossier cible : sh HathiTrust.sh

Autre méthode de contournementModifier

Bien que le téléchargement par proxy de livres dans le domaine public non accessibles directement soit légal, le site HathiTrust rejette souvent ce genre de connexion. Il est donc assez fastidieux d’obtenir un livre complet, et cela peut prendre des heures. On peut utiliser un Réseau privé virtuel (VPN) à la place d’un proxy ; certains VPN sont gratuits, et même limités ils permettent d’obtenir toutes les images d’un livre en quelques minutes. Comme pour l’utilisation d’un proxy, cette méthode doit être utilisée en connaissance de cause pour ne pas compromettre la sécurité de votre ordinateur.

Voir aussiModifier