Forum général.cherche-logiciel Outils libres de rétroingénierie de pages Web?
Je voudrais savoir si vous connaissez des outils libres de rétroingénierie de pages Web HTML (càd extraction structurée; ex.: extraire le prix, le stock et le nom du produit dans une fiche produit). Mes langages d'intérêt sont le Java, le Python et le PHP.
# Rétroingénérie
Posté par Émilien Tlapale . Évalué à 2.
Dans ton cas tu peux utiliser un truc comme beautifulsoup en python sur la structure HTML. Il te faut juste un parser de HTML quoi.
[^] # Re: Rétroingénérie
Posté par Robert VISEUR (site web personnel) . Évalué à 1.
Oui, c'est une des manières.
Cependant, en fait, je cherche à voir ce qu'il existe de plus élaboré, notamment en matière de souplesse de définition des règles d'extraction et de robustesse aux variations de code HTML (entre pages similaires).
R.
# pour Java : cyberneko
Posté par Jean Meyrand . Évalué à 1.
Sinon, du parsing de chaines de caractères à base de regexp, c'est pas trop compliqué à faire à la main...
[^] # BeautifulSoup
Posté par Émilien Tlapale . Évalué à 2.
# auto-publicité scandaleuse
Posté par palm123 (site web personnel) . Évalué à 2.
http://gerard-labadie.info/liens.html#python
ウィズコロナ
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.