Récupérer les tableaux d'une page HTML

Bonjour, je me perd un peu avec la caractère dynamiquement typé de perl, car j'ai du mal à récupérer le contenu HTML des cases des tableaux contenus dans une page HTML.

J'ai le script suivant :



#!/usr/bin/perl

use LWP::Simple;

use LWP::UserAgent;

use HTML::TableExtract;



# recup de STDIN dans une string

my $holdTerminator = $/;

undef $/;

my $buf = ;

$/ = $holdTerminator;

my @lines = split /$holdTerminator/, $buf;

$buf = "init";

$buf = join $holdTerminator, @lines;



my $te;

my $ts;

my $row;





my $capture = $buf;





$depth = 0;

$count = 0;



while ($depth <= 10) {

	DoLoop();

	$depth++;

}



sub DoLoop {

	for ($i = 0; $i <= 10; $i++)

	{

		$te = HTML::TableExtract->new( depth => "$depth", count => $i );

		$te->parse($capture);

		my $table = $te->first_table_found;

		foreach my $ts ($te->tables)



 		{



 			print "Table found at ", $ts->coords, ":\n";

  			foreach $row ($ts->rows) {

					#my $truc = $row->as_text;

   			foreach my $truc ($row) {

    	#my $quoi = $truc->text;

    	foreach my $quoi ($truc) {

    		print $quoi;

   			}

						}

					#print "$truc\n";



				}

			}

		}



}

Là je sèche, parce que malgré la doc http://search.cpan.org/dist/HTML-TableExtract/lib/HTML/Table(...) et http://search.cpan.org/~petek/HTML-Tree-3.23/lib/HTML/Elemen(...) j'arrive pas à déterminer si j'obtiens des choux ou des carottes, et surtout comment récupérer ce fichu html...

Quelqu'un a l'habitude d'utiliser cette lib ?

# data::dumper

Posté par Yves Agostini (site web personnel) le 25 juin 2008 à 19:40. Évalué à 2.

je ne connais pas cette lib
mais une bonne technique est d'utiliser Data::Dumper

donc :

use Data::Dumper;
....
print Dumper $row;

...
print Dumper $truc;
...

et examiner la sortie

[^] # Re: data::dumper

Posté par Ontologia (site web personnel) le 30 juin 2008 à 16:05. Évalué à 1.

Pour les éventuels intéressés, cette librairie (HTML::TableExtract) ne renvoie que du texte...

« Il n’y a pas de choix démocratiques contre les Traités européens » - Jean-Claude Junker

# data::dumper

Posté par Yves Agostini (site web personnel) le 25 juin 2008 à 19:40. Évalué à 2.

je ne connais pas cette lib
mais une bonne technique est d'utiliser Data::Dumper

donc :

use Data::Dumper;
....
print Dumper $row;

...
print Dumper $truc;
...

et examiner la sortie
- [^] # Re: data::dumper
  
  Posté par Ontologia (site web personnel) le 30 juin 2008 à 16:05. Évalué à 1.
  
  Pour les éventuels intéressés, cette librairie (HTML::TableExtract) ne renvoie que du texte...
  « Il n’y a pas de choix démocratiques contre les Traités européens » - Jean-Claude Junker

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.