Je viens de voir ce lien dans un journal :
http://www.liafa.jussieu.fr/~latapy/index.php?item=webgraph〈=(...)
Je me souviens aussi de pages créant à l'infini des adresses mail faussent pour occuper les crawleurs des spammeurs...
Comment font les moteurs de recherche pour ne pas suivre tout ce contenu sans intérêt ?
Si ils se restreignent à une certaine "profondeur" de lien pour chaque domaine, il y aura forcement de la perte. Il faut par exemple pas mal de clics pour atteindre certains journaux anciens.
En passant, ça serait intéressant d'étudier la profondeur d'un site comme linuxfr. Quel % du contenu est-il accessible en 1 clic ? 2 clic ? etc. Quelle est la page la plus "profonde" ?
# reflexion
Posté par Wawet76 . Évalué à 7.
[^] # Re: reflexion
Posté par Zorro (site web personnel) . Évalué à 3.
[^] # Re: reflexion
Posté par Xavier Teyssier (site web personnel) . Évalué à 2.
Comment ça, dans ce cas, c'est plus un journal ?
# robot.txt
Posté par Olivier Grisel (site web personnel) . Évalué à 4.
http://www.monkeys.com/robots.txt(...)
Ce fichier protège le piège :
http://www.monkeys.com/spammers-are-leeches(...)
Pour plus de détails sur robots.txt :
http://www.robotstxt.org/wc/exclusion.html(...)
[^] # Re: robot.txt
Posté par Wawet76 . Évalué à 2.
Les crawleurs des moteurs de recherche doivent forcement en tenir compte. Je me demandais juste si ils s'arrêtaient au bout d'un moment en se basant simplement sur la profondeur ou si d'autres trucs étaient pris en compte.
[^] # Il crawlent en rond ces moteurs !
Posté par Beurt . Évalué à 3.
D'où l'idée qu'ils doivent repasser plusieurs fois sur les mêmes données, présentées différemment par le moteur PHP (daCode roulaize avec Charles).
Peut-être d'ailleurs qu'ils utilisent un indice de similarité entre les pages crawlées en profondeur et les pages proches de la surface. Quand la similarité devient trop grande (ou trop fréquente), c'est que le moteur de crawl brasse les mêmes données, il arête.
C'est peut-être plus fiable que simplement choisir de s'arrêter en fonction de la profondeur à laquelle il est.
[^] # Re: Il crawlent en rond ces moteurs !
Posté par plagiats . Évalué à 1.
[^] # Re: Il crawlent en rond ces moteurs !
Posté par Beurt . Évalué à 1.
Merci !
[^] # Re: robot.txt
Posté par Gniarf . Évalué à 4.
pour site:www.cnn.com on obtient 285 000 liens.
les moteurs de recherche bien écrits ont des garde-fous pour éviter de surcharger un site en nombre de requêtes dans le temps (bande passante), suivant différents critères, et en nombre de pages mémorisées aussi.
le souci concerne les moteurs amateurs et ceux ... euh... en cours de rodage ou de mise au point sur le terrain - comme le fameux PompOs de dir.com (Illiad/Proxad) à l'époque. ils cassent tout et là, il faut effectivement jouer du robots.txt ... en plus, quand on se plaint et qu'ils répondent, c'est pour dire qu'ils sont "en rodage"...
ah, autre point, il a de la mémoire, ce con. j'ai viré ce wiki depuis des lustres, plusieurs mois en fait.
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.