Il existe quelques outils d'archivage de la tribune, avec indexation et donc possibilité de recherche.
Cependant, le /robots.txt du site interdit aux robots d'indexation d'accéder à /board.
Je suis moi même auteur d'un bot d'indexation de la tribune (Olccs), je suis donc intéressé par avoir l'avis des administrateurs du site:
- le robots.txt est-il limité aux moteurs reconnus (e.g. Google, Yahoo, Bing, DuckDuckGo, etc.) ou les bots de la tribune (et il y en a quelques uns) doivent-ils le respecter?
- le robots.txt est-il limité à l'indexation par un moteur de recherche ou son champ d'application est-il plus large (genre une lecture de la tribune pour en extraire uniquement les liens)?
- dois-je arrêter mon bot?
- une modification du robots.txt est-elle envisageable pour autoriser explicitement les différents bots?
Dans l'attente d'une réponse de votre part, je vous prie d'agréer, et toutes ces sortes de choses.
# C'est possible
Posté par papatte3 . Évalué à 1 (+0/-0).
Malgré l'absence apparente de standard, le consensus est que le robots.txt s'applique aux moteurs d'indexation récursifs :
D'après robotstxt.org : Web Robots (also called "Wanderers" or "Spiders") are Web client programs that automatically traverse the Web's hypertext structure by retrieving a document, and recursively retrieving all documents that are referenced.
D'après google : crawler: A crawler is a service or agent that crawls websites. Generally speaking, a crawler automatically and recursively accesses known URLs of a host that exposes content which can be accessed with standard web-browsers. As new URLs are found (through various means, such as from links on existing, crawled pages or from Sitemap files), these are also crawled in the same way.
Il me semble donc que l'indexation de la tribune n'est pas concernée.
[^] # Commentaire supprimé
Posté par Anonyme . Évalué à -4 (+0/-0). Dernière modification le 21 juillet 2014 à 12:41.
Ce commentaire a été supprimé par l’équipe de modération.
[^] # Re: C'est possible
Posté par dyno partouzeur du centre . Évalué à 1 (+0/-0).
Pour moi le robots.txt s'applique pour les outils qui parcourent aveuglément un site en suivant les liens.
Mais j'estime que cibler une page particulière et elle seulement n'est pas un robot au sens qu'on l'entend généralement.
[^] # Re: C'est possible
Posté par hermenegilde . Évalué à 4 (+0/-0).
Alors en fait, je ne voulais pas savoir si un consensus existait ou si une RFC décrivait dans le détail les différentes interactions, mais quel était l'avis des admins. D'où je suis donc intéressé par avoir l'avis des administrateurs du site.
Par conséquent, je voulais savoir si dans l'esprit de la mise en place du robots.txt sur le site, ils comptaient également interdire les différents bots de tribune ou pas. Dont le tiens. Je me doute que de toutes façons, si tu as écris un bot, tu vas forcément penser qu'il a le droit d'aller sur la tribune.
[^] # Re: C'est possible
Posté par Benoît Sibaud (site web personnel) . Évalué à 4 (+0/-0).
La tribune permet aux personnes authentifiées sur le site de publier des entrées sans modération a priori. Il s'agit d'échanges courts et rapides, avec ce que cela peut générer en terme de « je m'enflamme / j'oublie que je m'exprime dans un lieu public ». Il s'agit aussi d'échanges à durée de vie limitée car il n'y a pas d'archivage sur le site. Il y a déjà eu des échanges illégaux et des échanges des plus discourtois (il n'y a pas de modérateurs en permanence pour suivre les échanges en permanence) et le fait de ne pas les publiciser/archiver dans les moteurs de recherche leur donne une durée de vie faible.
Si des personnes externes à l'équipe du site créent des archives de leur côté, ce seraient donc de leur propre choix et c'est elles qui assumeraient la responsabilité de la publication de ce contenu et sa mise en ligne plus ou moins permanente, d'un point de vue légal d'une part, mais aussi d'un point de vue relations entre des personnes/communautés (Machin aura chauffer Truc qui aura insulté Bidule etc.). Et aussi d'un point de vue technique (volume de stockage, etc.) même si c'est la partie la plus facile.
Pour prendre une comparaison plus ou moins osée, ça serait comme vouloir conserver les archives des discussions dans un café, ça ne me semble pas avoir un intérêt énorme dans l'absolu, même si parfois certaines conversations peuvent être très intéressantes (et plein d'autres banales, navrantes ou inutiles). Et si je me place d'un point de vue site LinuxFr.org, je préfère mettre en avant (dans les moteurs de recherche et auprès des internautes visiteurs ou non du site) les dépêches, les journaux, les forums, etc. Et j'ajoute que les échanges de la tribune sont souvent cryptiques et emplis de « private jokes » pour les néophytes. Bref la tribune est une sorte de lieu d'habitués mais public (comme un troquet quoi), avec les avantages/inconvénients que cela induit.
[^] # Re: C'est possible
Posté par hermenegilde . Évalué à 4 (+0/-0).
Merci pour la réponse in extenso de ce qu'est la tribune, mais vu que je la cottoie un truc genre 10 ans, je connais. Et même si je suis d'accord avec la description, ça ne répond pas trop à la question.
Tu sembles dire que ça pose pas de problème à l'équipe si des bots d'archivage existe, sans vraiment le dire explicitement. C'est ainsi que je comprends
J'ai bon?
[^] # Re: C'est possible
Posté par Benoît Sibaud (site web personnel) . Évalué à 5 (+0/-0).
Oui, je n'en vois pas l'intérêt (osef ça intéresse d'autres gens visiblement) et ça me semble une mauvaise idée (archive d'un bistrot), mais des gens veulent le faire et le font déjà. Du coup mes réponses seraient :
[^] # Re: C'est possible
Posté par dyno partouzeur du centre . Évalué à 2 (+0/-0).
Après je pense que ce serait une bonne pratique que les personnes ayant des vélléités d'archivage de ce monument culturel qu'est la tribune fassent l'effort d'avoir eux-aussi un robots.txt sur leur site d'archive afin que les contenus ne soient pas indexés par les webcrawlers.
Envoyer un commentaire
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.