Forum Programmation.shell Wget, Sed et remplacement

Posté par ben (site web personnel) le 19 décembre 2007 à 20:39.

Étiquettes : aucune

déc.

2007

Bonjours

Je cherche à récupérer des textes libre de droit via google books :

J'ai reussi à récuperer les pages à l'aide de wget en faisant :

wget -k -p -erobots=off -np -N -nd --user-agent=Mozilla/5.0 -O "http://books.google.com/books?id=asVKAAAAMAAJ&pg=PA350&dq=Ca(...)"

Ma première question, connaissez vous une option de wget pour éviter de télécharger également les images ?

Ensuite, je souhaiterais extraire le texte qui se trouve entre les balises

‹div class="display_text" style="width: 606px; background-color: white; text-align: left;"›

et
‹/p›‹/div›‹/td›‹td background="/googlebooks/bookpage_right.gif" width="23"›

Et là, j'ai essayé avec sed mais sans succés, probablement à cause des "



cat mon_fichier.html | sed -e 's/*‹div class="display_text" style="width: 606px; background-color: white; text-align: left;"›//' -e 's/‹/p›‹/div›‹/td›‹td background="/googlebooks/bookpage_right.gif" width="23"›*//g'

Ne marchant pas...

Si vous avez une idée...

Benjamin

# Wget

Posté par ben (site web personnel) le 19 décembre 2007 à 20:49. Évalué à 1.

Bon, pour la première queston, c'est de ma faute, il suffit de faire :

wget -k -erobots=off -np -N -nd --user-agent=Mozilla/5.0 -O /tmp/toto.txt "http://books.google.com/books?id=asVKAAAAMAAJ&pg=PA350&a(...)

Et on télécharge que le fichier html (donc ne pas ajouter l'option -p)
# Finalement...

Posté par ben (site web personnel) le 19 décembre 2007 à 21:53. Évalué à 1.

Bon, finalement, pour ceux que ça intéresserait, j'ai résolu le problème en faisant comme ça :

#!/bin/bash for i in `seq 201 350`; do FILE="http://books.google.com/books?id=asVKAAAAMAAJ&pg=PA$i&am(...) echo $FILE `wget -k -erobots=off -np -N -nd --user-agent=Mozilla/5.0 -O /tmp/toto.txt $FILE` cat /tmp/toto.txt | sed -e '177!d' -e s/"‹[^›]*›"/""/g -e 's/ .*//' › /tmp/tata.txt echo "" ›› /tmp/tata.txt cat /tmp/tata.txt ›› /tmp/final.txt done rm -rf /tmp/toto.txt rm -rf /tmp/tata.txt
# pdf ?

Posté par Anonyme le 20 décembre 2007 à 17:07. Évalué à 1.

suis a cote de la plaque si je t'indique que le livre que tu donnes dans ton exemple est disponible en pdf via le site de google ?
- [^] # Re: pdf ?
  
  Posté par ben (site web personnel) le 20 décembre 2007 à 17:57. Évalué à 1.
  
  Il me semble pas qu'il soit disponible en PDF en mode texte, juste le PDF en mode image (d'où la taille de 8,7Mo)

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.

# Wget

# Finalement...

# pdf ?

[^] # Re: pdf ?