Bonjour,
Il y a quelques temps dans les Journaux de Linuxfr, une personne avait fait un petit logiciel qui prenait en paramètre un site web (ie www.lemonde.fr) avec plein d'images et de liens et le parsait pour le "transformer" pour enlever les images, les décors et n'affichait que le contenu du site (ie les titres des articles)
Quelqu'un se souviendrait du journal en question ou de la manière de le retrouver ? ;)
PS : déjà utilisé la fonction recherche sans succès.
# Re: Logiciel de parsage de site "compliqué" en version "simple"
Posté par Yoan B (site web personnel) . Évalué à 2.
Le monde.fr
* http://www.lemonde.fr/(...)
* http://www.delorie.com/web/lynxview.cgi?url=http%3A%2F%2Fwww.lemond(...)
Alors qu'un site bien "fait" est directement utilisable.
* http://www.delorie.com/web/lynxview.cgi?url=http%3a%2f%2flinuxfr.or(...)
* http://www.delorie.com/web/lynxview.cgi?url=http%3A%2F%2Fwww.pompag(...)
Mais au delà de ses considérations, il te suffirait avec n'importe quel langage (php, perl, xslt) de ne garder que le contenu "texte" avec leur signification (h1, h2, hx,p, dl,dt,dd,ul,ol,li,address,blockquote).
Un site mal pensé ne pourra pas aisément être repris.
* http://www.delorie.com/web/lynxview.cgi?url=http%3A%2F%2Fwww.eiaj.c(...)
* http://www.eiaj.ch/v2/futur_ingenieur/info_form/titres/content.htm(...)
Un code comme celui-ci n'a aucun sens car il n'est pas sémantiquement correct. les hn sont émulés par des <span class="titlen">.
En connaissant la/les page(s) dont tu devras reprendre le contenu, tu peux t'en sortir avec des expressions régulières ou du xslt (si le code est valide xml). Mais un programme générique faisant ça me parait trop complexe vu la balkanisation du web : http://openweb.eu.org/humeurs/balkanisation/(...)
Si la solution existe, je serai intéressé. (RSS ?)
[^] # Re: Logiciel de parsage de site "compliqué" en version "simple"
Posté par Sasuke . Évalué à 1.
[^] # Re: Logiciel de parsage de site "compliqué" en version "simple"
Posté par Ramso . Évalué à 1.
[^] # Re: Logiciel de parsage de site "compliqué" en version "simple"
Posté par Aurélien Bompard (site web personnel) . Évalué à 1.
lynx -dump http://tonsite.net(...)
[^] # Re: Logiciel de parsage de site "compliqué" en version "simple"
Posté par Alexandre Habian . Évalué à 1.
En effet, je peux également que lynx peut dans cette affaire rendre bien des services.
Merci à tous.
# Re: Logiciel de parsage de site "compliqué" en version "simple"
Posté par gnujsa . Évalué à 1.
- links ( qui a un rendu différent)
- l'association GET + html2text
ex: $ GET http://www.lemonde.fr/(...) | html2text
- sous mozilla enregistrer sous ... et choisir fichiers texte
Sinon, si tu veux le conserver en html, mais ça demande plus de travail:
dans mozilla :
fichier -> editer la page
puis dans le composer, en se plaçant dans l'onglet HTML tag, soit effacer les elements superlus, soit copier les élément qui t'interesse dans une nouvelle page.
Quoi qu'il en soit, avec un site bourré de tableau comme www.lemonde.fr, ça va pas être simple....
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.