Je cherche à récupérer des textes libre de droit via google books :
J'ai reussi à récuperer les pages à l'aide de wget en faisant :
wget -k -p -erobots=off -np -N -nd --user-agent=Mozilla/5.0 -O "http://books.google.com/books?id=asVKAAAAMAAJ&pg=PA350&dq=Ca(...)"
Ma première question, connaissez vous une option de wget pour éviter de télécharger également les images ?
Ensuite, je souhaiterais extraire le texte qui se trouve entre les balises
‹div class="display_text" style="width: 606px; background-color: white; text-align: left;"›
et
‹/p›‹/div›‹/td›‹td background="/googlebooks/bookpage_right.gif" width="23"›
Et là, j'ai essayé avec sed mais sans succés, probablement à cause des "
cat mon_fichier.html | sed -e 's/*‹div class="display_text" style="width: 606px; background-color: white; text-align: left;"›//' -e 's/‹/p›‹/div›‹/td›‹td background="/googlebooks/bookpage_right.gif" width="23"›*//g'
Ne marchant pas...
Si vous avez une idée...
Benjamin
# Wget
Posté par ben (site web personnel) . Évalué à 1.
wget -k -erobots=off -np -N -nd --user-agent=Mozilla/5.0 -O /tmp/toto.txt "http://books.google.com/books?id=asVKAAAAMAAJ&pg=PA350&a(...)
Et on télécharge que le fichier html (donc ne pas ajouter l'option -p)
# Finalement...
Posté par ben (site web personnel) . Évalué à 1.
#!/bin/bash
for i in `seq 201 350`;
do
FILE="http://books.google.com/books?id=asVKAAAAMAAJ&pg=PA$i&am(...)
echo $FILE
`wget -k -erobots=off -np -N -nd --user-agent=Mozilla/5.0 -O /tmp/toto.txt $FILE`
cat /tmp/toto.txt | sed -e '177!d' -e s/"‹[^›]*›"/""/g -e 's/ .*//' › /tmp/tata.txt
echo "" ›› /tmp/tata.txt
cat /tmp/tata.txt ›› /tmp/final.txt
done
rm -rf /tmp/toto.txt
rm -rf /tmp/tata.txt
# pdf ?
Posté par Anonyme . Évalué à 1.
[^] # Re: pdf ?
Posté par ben (site web personnel) . Évalué à 1.
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.