Journal Logiciel de parsage de site "compliqué" en version "simple"

Posté par Alexandre Habian le 06 mars 2004 à 13:17.

Étiquettes : aucune

mar.

2004

Bonjour,

Il y a quelques temps dans les Journaux de Linuxfr, une personne avait fait un petit logiciel qui prenait en paramètre un site web (ie www.lemonde.fr) avec plein d'images et de liens et le parsait pour le "transformer" pour enlever les images, les décors et n'affichait que le contenu du site (ie les titres des articles)

Quelqu'un se souviendrait du journal en question ou de la manière de le retrouver ? ;)

PS : déjà utilisé la fonction recherche sans succès.

# Re: Logiciel de parsage de site "compliqué" en version "simple"

Posté par Yoan B (site web personnel) le 06 mars 2004 à 14:07. Évalué à 2.

Je n'en ai eu vent, mais c'est un chose très complexe pour un site "complexe". Le meilleur exemple est de prendre Lynx pour voir tout ça.

Le monde.fr
* http://www.lemonde.fr/(...)
* http://www.delorie.com/web/lynxview.cgi?url=http%3A%2F%2Fwww.lemond(...)

Alors qu'un site bien "fait" est directement utilisable.

* http://www.delorie.com/web/lynxview.cgi?url=http%3a%2f%2flinuxfr.or(...)
* http://www.delorie.com/web/lynxview.cgi?url=http%3A%2F%2Fwww.pompag(...)

Mais au delà de ses considérations, il te suffirait avec n'importe quel langage (php, perl, xslt) de ne garder que le contenu "texte" avec leur signification (h1, h2, hx,p, dl,dt,dd,ul,ol,li,address,blockquote).

Un site mal pensé ne pourra pas aisément être repris.

Titre délivré : Ingénieur-e diplômé-e HES avec mention de la filière et de l'orientation <a name="debouches"></a> Un titre qui ouvre de multiples débouchés pour de futurs cadres de l'économie [<a href="#top">top</a>] <blockquote> La recherche appliquée, le développement, la conception, la production, le management, le marketing, la vente, l'enseignement, le consulting, les brevets,... </blockquote> <a name="formation _mod"></a><a name="formation _mod"> </a>La formation par modules, un concept qui favorise la mobilité [<a href="#top">top</a>]

* http://www.delorie.com/web/lynxview.cgi?url=http%3A%2F%2Fwww.eiaj.c(...)
* http://www.eiaj.ch/v2/futur_ingenieur/info_form/titres/content.htm(...)

Un code comme celui-ci n'a aucun sens car il n'est pas sémantiquement correct. les hn sont émulés par des .

En connaissant la/les page(s) dont tu devras reprendre le contenu, tu peux t'en sortir avec des expressions régulières ou du xslt (si le code est valide xml). Mais un programme générique faisant ça me parait trop complexe vu la balkanisation du web : http://openweb.eu.org/humeurs/balkanisation/(...)

Si la solution existe, je serai intéressé. (RSS ?)
- [^] # Re: Logiciel de parsage de site "compliqué" en version "simple"
 
 Posté par Sasuke le 06 mars 2004 à 14:52. Évalué à 1.
 
 Voila pourquoi il faut utiliser des divs et du css (le tout xhtml compliant). Si t'arrives à faire ça, alors t'aura un zoli site sous links :) (ou lynx).
 - [^] # Re: Logiciel de parsage de site "compliqué" en version "simple"
 
 Posté par Ramso le 06 mars 2004 à 17:03. Évalué à 1.
 
 On n'a pas attendu XHTML pour avoir une bonné sémantique et la séparation du contenu et de la présentation. Tout ceci existe en HTML.
- [^] # Re: Logiciel de parsage de site "compliqué" en version "simple"
 
 Posté par Aurélien Bompard (site web personnel) le 06 mars 2004 à 15:30. Évalué à 1.
 
 et si tu veux travailler sur la sortie, tu peux utiliser :
 lynx -dump http://tonsite.net(...)
- [^] # Re: Logiciel de parsage de site "compliqué" en version "simple"
 
 Posté par Alexandre Habian le 06 mars 2004 à 17:42. Évalué à 1.
 
 Merci pour cette démonstration.
 
 En effet, je peux également que lynx peut dans cette affaire rendre bien des services.
 
 Merci à tous.
# Re: Logiciel de parsage de site "compliqué" en version "simple"

Posté par gnujsa le 07 mars 2004 à 03:11. Évalué à 1.

en plus de lynx, tu peut aussi utiliser :
- links ( qui a un rendu différent)
- l'association GET + html2text
ex: $ GET http://www.lemonde.fr/(...) | html2text
- sous mozilla enregistrer sous ... et choisir fichiers texte

Sinon, si tu veux le conserver en html, mais ça demande plus de travail:
dans mozilla :
fichier -> editer la page
puis dans le composer, en se plaçant dans l'onglet HTML tag, soit effacer les elements superlus, soit copier les élément qui t'interesse dans une nouvelle page.

Quoi qu'il en soit, avec un site bourré de tableau comme www.lemonde.fr, ça va pas être simple....

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.