Forum général.général wget + suivi de lien vs sauvegarde
Dans wget, il est possible de donner des templates d'URLs à suivre. Le problème, c'est que je voudrais que wget suive tout et ne sauve que certaines pages, j'ai l'impression que ce n'est pas possible. Si je donne une forme d'URL, il l'applique aussi aux liens à suivre. Est-ce que je m'y prends mal ou est-ce effectivement une limitation de wget ?
# wget et lien
Posté par NeoX . Évalué à 1.
et parcours le site de maniere recursive pour aller dans les sous-liens...
par contre si tu veux sauvegarder un site qui passe par une base de données, je ne suis pas sur que tu puisse sauvegarder tout le site comme ca.
[^] # Re: wget et lien
Posté par Robert VISEUR (site web personnel) . Évalué à 1.
sur un site, tu as uniquement certaines pages qui t'intéressent.
par exemple, des fiches produits que tu souhaites indexer.
ce que je veux, c'est par exemple indexer les fiches produits mais pas les pages de catégorie, sachant que la découverte des pages de catégorie implique de passer par l'index puis les pages de catégorie.
Avec "-A" comme options, j'ai l'impression que wget mélange les deux. En fait, pour ramener ça à une directive "robots", je ne vois pas comment séparer les règles pour l'"index" et le "follow".
[^] # Re: wget et lien
Posté par NeoX . Évalué à 3.
-A acclist --accept acclist
-R rejlist --reject rejlist
si tu connais les categories, tu peux peut-etre directement lister et recuperer les fiches dans les categories ...
avec l'option -i mon_fichier_input
si tu mets tes differentes URL dans le fichier tu dois pouvoir recuperer uniquement les fiches
genre
http://mon_site.tld/?categorie=cat1
http://mon_site.tld/?categorie=cat2
ce qui evite de recuperer tout le site, et permet d'avoir le contenu des categories
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.