Forum général.général wget + suivi de lien vs sauvegarde

Posté par Robert VISEUR (site web personnel) le 04 août 2008 à 03:25.

Étiquettes : aucune

août

2008

Dans wget, il est possible de donner des templates d'URLs à suivre. Le problème, c'est que je voudrais que wget suive tout et ne sauve que certaines pages, j'ai l'impression que ce n'est pas possible. Si je donne une forme d'URL, il l'applique aussi aux liens à suivre. Est-ce que je m'y prends mal ou est-ce effectivement une limitation de wget ?

# wget et lien

Posté par NeoX le 04 août 2008 à 13:36. Évalué à 1.

wget par definition suit les liens à partir de la page de depart
et parcours le site de maniere recursive pour aller dans les sous-liens...

par contre si tu veux sauvegarder un site qui passe par une base de données, je ne suis pas sur que tu puisse sauvegarder tout le site comme ca.
- [^] # Re: wget et lien
  
  Posté par Robert VISEUR (site web personnel) le 04 août 2008 à 14:05. Évalué à 1.
  
  à mon avis, je n'ai pas dû être clair ;-).
  
  sur un site, tu as uniquement certaines pages qui t'intéressent.
  par exemple, des fiches produits que tu souhaites indexer.
  
  ce que je veux, c'est par exemple indexer les fiches produits mais pas les pages de catégorie, sachant que la découverte des pages de catégorie implique de passer par l'index puis les pages de catégorie.
  
  Avec "-A" comme options, j'ai l'impression que wget mélange les deux. En fait, pour ramener ça à une directive "robots", je ne vois pas comment séparer les règles pour l'"index" et le "follow".
  - [^] # Re: wget et lien
    
    Posté par NeoX le 04 août 2008 à 14:15. Évalué à 3.
    
    -A acclist --accept acclist -R rejlist --reject rejlist
    
    si tu connais les categories, tu peux peut-etre directement lister et recuperer les fiches dans les categories ...
    
    avec l'option -i mon_fichier_input
    si tu mets tes differentes URL dans le fichier tu dois pouvoir recuperer uniquement les fiches
    
    genre
    http://mon_site.tld/?categorie=cat1
    http://mon_site.tld/?categorie=cat2
    
    ce qui evite de recuperer tout le site, et permet d'avoir le contenu des categories

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.

# wget et lien

[^] # Re: wget et lien

[^] # Re: wget et lien