Forum Programmation.shell Wget, Sed et remplacement

Posté par  (site web personnel) .
Étiquettes : aucune
0
19
déc.
2007
Bonjours

Je cherche à récupérer des textes libre de droit via google books :

J'ai reussi à récuperer les pages à l'aide de wget en faisant :

wget -k -p -erobots=off -np -N -nd --user-agent=Mozilla/5.0 -O "http://books.google.com/books?id=asVKAAAAMAAJ&pg=PA350&dq=Ca(...)"


Ma première question, connaissez vous une option de wget pour éviter de télécharger également les images ?

Ensuite, je souhaiterais extraire le texte qui se trouve entre les balises
‹div class="display_text" style="width: 606px; background-color: white; text-align: left;"›

et
‹/p›‹/div›‹/td›‹td background="/googlebooks/bookpage_right.gif" width="23"›

Et là, j'ai essayé avec sed mais sans succés, probablement à cause des "


cat mon_fichier.html | sed -e 's/*‹div class="display_text" style="width: 606px; background-color: white; text-align: left;"›//' -e 's/‹/p›‹/div›‹/td›‹td background="/googlebooks/bookpage_right.gif" width="23"›*//g'

Ne marchant pas...

Si vous avez une idée...

Benjamin
  • # Wget

    Posté par  (site web personnel) . Évalué à 1.

    Bon, pour la première queston, c'est de ma faute, il suffit de faire :

    wget -k -erobots=off -np -N -nd --user-agent=Mozilla/5.0 -O /tmp/toto.txt "http://books.google.com/books?id=asVKAAAAMAAJ&pg=PA350&a(...)

    Et on télécharge que le fichier html (donc ne pas ajouter l'option -p)
  • # Finalement...

    Posté par  (site web personnel) . Évalué à 1.

    Bon, finalement, pour ceux que ça intéresserait, j'ai résolu le problème en faisant comme ça :

    #!/bin/bash
    for i in `seq 201 350`;
    do
    FILE="http://books.google.com/books?id=asVKAAAAMAAJ&pg=PA$i&am(...)
    echo $FILE
    `wget -k -erobots=off -np -N -nd --user-agent=Mozilla/5.0 -O /tmp/toto.txt $FILE`
    cat /tmp/toto.txt | sed -e '177!d' -e s/"‹[^›]*›"/""/g -e 's/  .*//' › /tmp/tata.txt
    echo "" ›› /tmp/tata.txt
    cat /tmp/tata.txt ›› /tmp/final.txt
    done
    rm -rf /tmp/toto.txt
    rm -rf /tmp/tata.txt
  • # pdf ?

    Posté par  . Évalué à 1.

    suis a cote de la plaque si je t'indique que le livre que tu donnes dans ton exemple est disponible en pdf via le site de google ?
    • [^] # Re: pdf ?

      Posté par  (site web personnel) . Évalué à 1.

      Il me semble pas qu'il soit disponible en PDF en mode texte, juste le PDF en mode image (d'où la taille de 8,7Mo)

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.