Bonjour,
Vous connaissez certainement tous l'un des frameworks qui font :
données + template => html (ex. smarties, j2EE, Templeet, ...).
Et bien, je cherche l'inverse :
html + template = données
Auriez-vous connaissance d'un tel logiciel/API?
En vous remerkillant,
#18.
# XSLT
Posté par Hardy Damien . Évalué à 5.
déjà il faut le passer en xhtml (pour que ça soit du xml) grâce a tidy ( http://www.w3.org/People/Raggett/tidy/ )
ensuite une feuille de style xslt pour extraire les données et les mettre au format que tu veux.(cf comande xsltproc)
Dam
[^] # Re: XSLT
Posté par Laurent GRANIE (site web personnel) . Évalué à 1.
Par contre, j'ai peur que cela soit un peu lourd :
html => JTidy => xslt => jaxb => objet
En effet, si le site en question change il va me falloir changer la feuille xslt. Je manque un peu d'expérience en xslt d'où mon apriori.
Je pensais plus à un système à la smarties inversé :
<body>
<h1>[TITRE]</h1>
<a href="[url intéressante]">tralala tsouin tsouin</a>
.. etc...
Il suffit alors de récupérer le code d'une page et de le taguer avec un éditeur de texte.
A+, #18.
[^] # Re: XSLT
Posté par bertrand . Évalué à 2.
Si tu veux récupèrer "[TITRE]" ou "[url intéressante]" Je pense que c'est assez simple :))
Si tu veux récupèrer les titres de niveaux 1, les url des liens, le contenu des paragraphes contenu dans une liste numérotée elle même incluse dans un DIV de class "contenu"... et que le site est en XHTML, un parser XML quelconque et donc, pourquoi pas XSLT conviennent parfaitement.
Si tu cherches autre chose que le contenu ou les valeurs d'attribut d'éléments XHTML clairements identifiés (par leur nom et ou leur contexte), il faut envisager autre chose. Mais dans ce cas précise ton besoin.
# python est ton ami ;-)
Posté par manatlan (site web personnel) . Évalué à 10.
et je n'ai jamais trouvé mieux que beautifoul soup :
http://www.crummy.com/software/BeautifulSoup/examples.html
C'est une lib python capable de manger un peu prêt n'importe quoi comme sgml like, bien formé ou mal formé ...
en gros il mange tout ce qui resemble de loin ou de prêt à un langage de balisage
après t'as des api pour récupérer un peu près tout ;-)
ça va bien plus vite que la tidy'isation du mauvais html, puis l'écriture du XSLT qui va bien ...
[^] # Re: python est ton ami ;-)
Posté par omtonio . Évalué à 4.
beautifoul soup est vraiment excellent, ça me permet de faire l'équivalent d'un rss quand il n'y en a pas !!!!
en plus c'est super facile, même pour moi qui connait à peine le python !
[^] # Re: python est ton ami ;-)
Posté par Lucas Bonnet . Évalué à 2.
[^] # Re: python est ton ami ;-)
Posté par alexissoft . Évalué à 4.
Si ça peut intéresser, j'ai écrit une petite classe Python utilisant Beautifulsoup permettant d'accéder aux informations d'un compte sur le site des Bibliothèques de Paris.
En gros, sur chaque carte il y a un code barre et le nom de l'utilisateur, ce qui permet d'être identifié sur une page. Mon pti programme va la parser, et va pouvoir te dire ce que tu as loué et autres.
Si ça peut intéresser ...
[^] # Re: python est ton ami ;-)
Posté par Victor . Évalué à 2.
c'est tres interessant, si tu pouvais mettre ca online ce serait super :]
[^] # Re: python est ton ami ;-)
Posté par manatlan (site web personnel) . Évalué à 3.
(il faudra aussi que je le mette online un de ces 4)
Il permet de construire une playlist m3u des flux RTSP des nouvelles bandes annonces dispo sur allociné ...
A lancer, evidemment, tous les mercredis ;-)
(bien plus pratique que d'aller fetcher à la mano chaque BA, quand en plus sous linux, c pas toujours evident)
C'est d'une praticité absolu, et c'est à mettre dans son player avant de matter un divx au salon, pour faire comme au ciné ;-)
[^] # Re: python est ton ami ;-)
Posté par Jump3R (site web personnel) . Évalué à 1.
Un petit coup de mplayer derriere pour recuperer les flux et les avoir offline...
Y a moyen que tu mettes ton script quelque part s'il te plait ?
[^] # Re: python est ton ami ;-)
Posté par manatlan (site web personnel) . Évalué à 2.
http://manatlan.infogami.com/allocine
dis moi si ça marche pour toi (mais normalement oui)
chez moi, le seul player de lire correctement ces rtsp est XINE ;-(
# use Template::Extract;
Posté par Twidi (site web personnel) . Évalué à 1.
[^] # Re: use Template::Extract;
Posté par Laurent GRANIE (site web personnel) . Évalué à 1.
Je pense que pour faire ce que je veux, il va falloir que je devienne un expert en binding perl, python, java, ... ;-)
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.