Bonjour les moules !
Comme j'ai déjà posté quelques expériences que je considère comme sympathique et que les retours étaient plutôt sympa, je vais vous parler de mon dernier délire.
Il y a deux parties que je pense assez indépendantes :
- Comment faire un « crawler web » en Python. Mais en ultra-simplifié (100 lignes de code), et très performant (500 pages/s). Pratique pour faire des expériences sur de gros volumes de pages web, sans se prendre la tête.
- palkeo sets : à partir d'un crawl de centaines de millions de pages web, comment re-créer un genre de « Google Sets ». Pour ceux qui ne l'ont pas connu, il permettait, à partir d'un ou deux éléments, de générer le reste de la liste. À partir de "janvier", pouf, on a la liste des mois par exemple. Mais on peut faire bien plus spécifique :)
J'en ai fait un article sur mon site personnel : http://www.palkeo.com/projets/sets.html
Je vous laisse le lire si ça vous intéresse (oui, c'est un journal-bookmark).
C'est tout, j'espère que ça vous intéressera (motivera à faire des trucs fun à partir d'analyse de pages web en masse ? :p)
palkeo.
# Demande d'explications complémentaires
Posté par gUI (Mastodon) . Évalué à 4.
Oui parce que en fait je n'ai aucune idée de ce qu'est un crawler ou "un genre de 'Google Sets'". Tu peux expliquer ?
Merci !
En théorie, la théorie et la pratique c'est pareil. En pratique c'est pas vrai.
[^] # Commentaire supprimé
Posté par Anonyme . Évalué à 10.
Ce commentaire a été supprimé par l’équipe de modération.
[^] # Re: Demande d'explications complémentaires
Posté par jigso . Évalué à 2.
Un crawler, c'est un genre de wget/curl récursif : on prend une page web, on récupère ses liens, puis on recommence avec ces liens, etc.
Là, pour aller plus vite, il utilise des listes de liens déja pré-établies.
Sinon je n'avais jamais entendu parler de Google Sets… faut demander a google !
[^] # Re: Demande d'explications complémentaires
Posté par zurvan . Évalué à 3. Dernière modification le 11 décembre 2014 à 09:40.
faut aller sur son site, c'est expliqué :
par exemple :
http://sets.palkeo.com/?q=atari%2C+amiga%2C+amstrad
« Le pouvoir des Tripodes dépendait de la résignation des hommes à l'esclavage. » -- John Christopher
[^] # Re: Demande d'explications complémentaires
Posté par zurvan . Évalué à 2.
amusant ça : http://googlesystem.blogspot.fr/2012/11/google-sets-still-available.html (mais ça ne fonctionne plus)
« Le pouvoir des Tripodes dépendait de la résignation des hommes à l'esclavage. » -- John Christopher
[^] # Re: Demande d'explications complémentaires
Posté par El Titi . Évalué à 8. Dernière modification le 11 décembre 2014 à 15:27.
Un crawler c'est un un genre de « Johnny Weissmuller ». Pour ceux qui ne l'ont pas connu, il permettait, à partir d'un ou deux mouvements de bras, de générer le reste du flim.
[^] # Re: Demande d'explications complémentaires
Posté par palkeo (site web personnel) . Évalué à 8.
Google Sets, du coup ça a déjà été expliqué.
Pour un crawler, c'est un outil qui va parcourir le web, en sautant de lien en lien sur chaque page.
Ça permet donc de récupérer des pages web en masse, pour faire tout et n'importe quoi (exemple : un moteur de recherche).
Google a donc un crawler « googlebot » ultra-sophistiqué qui se promène partout sur le web pour découvrir de nouvelles pages, par exemple.
Et c'est bien plus dur que ça en a l'air, car si on suit naïvement de lien en lien, il suffit qu'un site contienne plein de liens vers lui-même et on peut tourner en rond dessus. On peut dire au crawler de pas crawler plus de N pages du même site, mais alors il se passe quelque chose de très intéressant : il finit par seulement se promener sur un sous-ensemble du web constitué des sites les plus densément liés entre eux. En l’occurrence, il s'agit des sites porno.
[^] # Re: Demande d'explications complémentaires
Posté par djibb (site web personnel) . Évalué à 5.
ça sent le vécu :)
[^] # Re: Demande d'explications complémentaires
Posté par palkeo (site web personnel) . Évalué à 7.
Oh oui. J'ai même du faire une petite fonction capable de me dire si un site était pornographique, histoire de les éviter…
Et voilà, tu viens de me donner une nouvelle idée : faire un graphe de tous les domaines et de leur connexions. Et appliquer un algo de clustering de graphe pour trouver les communautés de sites liées entre eux.
Si j'ai raison, alors on devra voir un énorme cluster ultra-interconnecté contenant tous les sites pornos. Et plein d'autre clusters, mais lesquels ?
Bon voilà, si je suis inspiré d'ici quelques mois il y aura un nouveau journal sur les clusters de sites web :p
[^] # Re: Demande d'explications complémentaires
Posté par BAud (site web personnel) . Évalué à 5.
ya phoronix aussi… :/
[^] # Re: Demande d'explications complémentaires
Posté par Serge Julien . Évalué à 2.
Bien vu ! Pour moi, Phoronix est l'équivalent web d'un trou noir: quand tu tombes dedans, tu n'en sors pas. Même pas sûr qu'il y ait une radiation de Hawking…
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.