• # Rétroingénérie

    Posté par  . Évalué à 2.

    Pour moi de la rétroingénérie ça aurait plutôt était de reconstruire un script CGI à partir du HTML :p

    Dans ton cas tu peux utiliser un truc comme beautifulsoup en python sur la structure HTML. Il te faut juste un parser de HTML quoi.
    • [^] # Re: Rétroingénérie

      Posté par  (site web personnel) . Évalué à 1.

      Hello,
      Oui, c'est une des manières.
      Cependant, en fait, je cherche à voir ce qu'il existe de plus élaboré, notamment en matière de souplesse de définition des règles d'extraction et de robustesse aux variations de code HTML (entre pages similaires).
      R.
  • # pour Java : cyberneko

    Posté par  . Évalué à 1.

    http://people.apache.org/~andyc/neko/doc/html/ : parse le HTML à peu près correctement.

    Sinon, du parsing de chaines de caractères à base de regexp, c'est pas trop compliqué à faire à la main...
    • [^] # BeautifulSoup

      Posté par  . Évalué à 2.

      Pour en revenir à BeautifulSoup (Python) il intègre lui déjà des expressions régulières en plus d'être capable de gérer toute sortes de HTML (même invalide).
  • # auto-publicité scandaleuse

    Posté par  (site web personnel) . Évalué à 2.

    tu trouveras quelques exemples d'utilisation de BeautifulSoup là

    http://gerard-labadie.info/liens.html#python

    ウィズコロナ

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.