Journal Crawler web & Google Sets

Posté par palkeo (site web personnel) le 11 décembre 2014 à 04:22. Licence CC By‑SA.

Étiquettes : aucune

déc.

2014

Bonjour les moules !

Comme j'ai déjà posté quelques expériences que je considère comme sympathique et que les retours étaient plutôt sympa, je vais vous parler de mon dernier délire.

Il y a deux parties que je pense assez indépendantes :

Comment faire un « crawler web » en Python. Mais en ultra-simplifié (100 lignes de code), et très performant (500 pages/s). Pratique pour faire des expériences sur de gros volumes de pages web, sans se prendre la tête.
palkeo sets : à partir d'un crawl de centaines de millions de pages web, comment re-créer un genre de « Google Sets ». Pour ceux qui ne l'ont pas connu, il permettait, à partir d'un ou deux éléments, de générer le reste de la liste. À partir de "janvier", pouf, on a la liste des mois par exemple. Mais on peut faire bien plus spécifique :)

J'en ai fait un article sur mon site personnel : http://www.palkeo.com/projets/sets.html
Je vous laisse le lire si ça vous intéresse (oui, c'est un journal-bookmark).

C'est tout, j'espère que ça vous intéressera (motivera à faire des trucs fun à partir d'analyse de pages web en masse ? :p)

palkeo.

# Demande d'explications complémentaires

Posté par gUI (Mastodon) le 11 décembre 2014 à 07:37. Évalué à 4.

Oui parce que en fait je n'ai aucune idée de ce qu'est un crawler ou "un genre de 'Google Sets'". Tu peux expliquer ?

Merci !

En théorie, la théorie et la pratique c'est pareil. En pratique c'est pas vrai.
- [^] # Commentaire supprimé
  
  Posté par Anonyme le 11 décembre 2014 à 08:02. Évalué à 10.
  
  Ce commentaire a été supprimé par l’équipe de modération.
- [^] # Re: Demande d'explications complémentaires
  
  Posté par jigso le 11 décembre 2014 à 08:28. Évalué à 2.
  
  Un crawler, c'est un genre de wget/curl récursif : on prend une page web, on récupère ses liens, puis on recommence avec ces liens, etc.
  Là, pour aller plus vite, il utilise des listes de liens déja pré-établies.
  
  Sinon je n'avais jamais entendu parler de Google Sets… faut demander a google !
- [^] # Re: Demande d'explications complémentaires
  
  Posté par zurvan le 11 décembre 2014 à 09:37. Évalué à 3. Dernière modification le 11 décembre 2014 à 09:40.
  
  faut aller sur son site, c'est expliqué :
  
  Google Sets permettait, en entrant un ou plusieurs mots, de récupérer une liste des mots faisant partie du même « ensemble ». Ainsi, en entrant une ou plusieurs couleurs, on est censé obtenir les autres couleurs. Mais on peut ausi entrer une ville, une marque, une émotion, le nom d’un artiste ou d’un personnage…
  
  par exemple :
  
  http://sets.palkeo.com/?q=atari%2C+amiga%2C+amstrad
  
  « Le pouvoir des Tripodes dépendait de la résignation des hommes à l'esclavage. » -- John Christopher
  - [^] # Re: Demande d'explications complémentaires
    
    Posté par zurvan le 11 décembre 2014 à 09:46. Évalué à 2.
    
    amusant ça : http://googlesystem.blogspot.fr/2012/11/google-sets-still-available.html (mais ça ne fonctionne plus)
    
    « Le pouvoir des Tripodes dépendait de la résignation des hommes à l'esclavage. » -- John Christopher
- [^] # Re: Demande d'explications complémentaires
  
  Posté par El Titi le 11 décembre 2014 à 15:24. Évalué à 8. Dernière modification le 11 décembre 2014 à 15:27.
  
  Un crawler c'est un un genre de « Johnny Weissmuller ». Pour ceux qui ne l'ont pas connu, il permettait, à partir d'un ou deux mouvements de bras, de générer le reste du flim.
- [^] # Re: Demande d'explications complémentaires
  
  Posté par palkeo (site web personnel) le 11 décembre 2014 à 17:47. Évalué à 8.
  
  Google Sets, du coup ça a déjà été expliqué.
  
  Pour un crawler, c'est un outil qui va parcourir le web, en sautant de lien en lien sur chaque page.
  Ça permet donc de récupérer des pages web en masse, pour faire tout et n'importe quoi (exemple : un moteur de recherche).
  Google a donc un crawler « googlebot » ultra-sophistiqué qui se promène partout sur le web pour découvrir de nouvelles pages, par exemple.
  
  Et c'est bien plus dur que ça en a l'air, car si on suit naïvement de lien en lien, il suffit qu'un site contienne plein de liens vers lui-même et on peut tourner en rond dessus. On peut dire au crawler de pas crawler plus de N pages du même site, mais alors il se passe quelque chose de très intéressant : il finit par seulement se promener sur un sous-ensemble du web constitué des sites les plus densément liés entre eux. En l’occurrence, il s'agit des sites porno.
  - [^] # Re: Demande d'explications complémentaires
    
    Posté par djibb (site web personnel) le 11 décembre 2014 à 20:07. Évalué à 5.
    
    ça sent le vécu :)
    - [^] # Re: Demande d'explications complémentaires
      
      Posté par palkeo (site web personnel) le 11 décembre 2014 à 20:25. Évalué à 7.
      
      Oh oui. J'ai même du faire une petite fonction capable de me dire si un site était pornographique, histoire de les éviter…
      
      Et voilà, tu viens de me donner une nouvelle idée : faire un graphe de tous les domaines et de leur connexions. Et appliquer un algo de clustering de graphe pour trouver les communautés de sites liées entre eux.
      Si j'ai raison, alors on devra voir un énorme cluster ultra-interconnecté contenant tous les sites pornos. Et plein d'autre clusters, mais lesquels ?
      
      Bon voilà, si je suis inspiré d'ici quelques mois il y aura un nouveau journal sur les clusters de sites web :p
    - [^] # Re: Demande d'explications complémentaires
      
      Posté par BAud (site web personnel) le 11 décembre 2014 à 22:58. Évalué à 5.
      
      ya phoronix aussi… :/
      - [^] # Re: Demande d'explications complémentaires
        
        Posté par Serge Julien le 12 décembre 2014 à 11:07. Évalué à 2.
        
        Bien vu ! Pour moi, Phoronix est l'équivalent web d'un trou noir: quand tu tombes dedans, tu n'en sors pas. Même pas sûr qu'il y ait une radiation de Hawking…

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.