Lien Drew Devault : Please stop externalizing your costs directly into my face

Posté par pas_pey le 19 mars 2025 à 07:36.

Étiquettes :

mar.

2025

https://drewdevault.com/2025/03/17/2025-03-17-Stop-externalizing-your-costs-on-me.html

# robot.txt

Posté par Nicolas Boulay (site web personnel) le 19 mars 2025 à 09:02. Évalué à 5 (+3/-1).

Robot.txt a été créé exactement pour cette raison du temps des moteurs de recherches. Est-ce que l'on connait la légalité de ne pas le respecter ?

Certains propriétaires utilisent leur application pour faire les requêtes depuis les smartphones ! Cela devient n'importe quoi.

"La première sécurité est la liberté"

Répondre
- [^] # Re: robot.txt
  
  Posté par wilk le 19 mars 2025 à 09:17. Évalué à 6 (+4/-0).
  
  Si on veut imiter la connerie humaine on est bien obligé d'imiter les connards.
  Du coup probablement qu'un jour on en arrivera à légiférer là dessus. Il faudra pouvoir identifier les visiteurs avec leur empreinte génétique dans les entêtes pour que ce soit applicable. On n'a pas le choix voyez vous.
  
  Répondre
- [^] # Re: robot.txt
  
  Posté par Jean Gabes (site web personnel) le 19 mars 2025 à 09:18. Évalué à 4 (+2/-0).
  
  Un loi sur un tel sujet technique? J'ai du mal à voir. A la limite le fait de ne pas rendre indisponible un autre système d'information, ça c'est légalisable, et là on pourrait creuser en disant qu'il est admins que si un robots.txt existe, alors il est communément admis que le respecter est une bonne chose.
  
  Après le site tu le mets bien à disposition du public, donc en quoi une requête d'un outil serait moins légitime (point de vue légal) que celle d'un autre utilisateur? Après je parle bien d'une requête, et pas d'une armée mal codée qui relis les pages encore et encore alors qu'il n'y a aucune modification dessus.
  
  Je ne dis pas que l'aime ce qu'ils font, mais je pense que l'assise légale pour les empêcher ne doit pas être énorme. Quand on voit que ces sociétés font du respect de la propriété intellectuelle des autres, je pense que le soucis de mettre au tas les sites n'est que le cadet de leurs problèmes malheureusement.
  
  Répondre
  - [^] # Re: robot.txt
    
    Posté par Renault (site web personnel) le 19 mars 2025 à 09:33. Évalué à 7 (+4/-0).
    
    Après le site tu le mets bien à disposition du public, donc en quoi une requête d'un outil serait moins légitime (point de vue légal) que celle d'un autre utilisateur? Après je parle bien d'une requête, et pas d'une armée mal codée qui relis les pages encore et encore alors qu'il n'y a aucune modification dessus.
    
    On peut attaquer l'usage plutôt que la requête en elle même.
    
    L'objectif est de collecter de l'info pour en faire quelque chose. Un service autour d'un LLM, l'apprentissage du LLM, ou alimenter la BDD d'un moteur de recherche. On pourrait arguer que le propriétaire du serveur ne souhaite pas que le contenu certes public puisse alimenter ces services et que on devrait pouvoir respecter ce choix.
    
    Ou de même attaquer non pas la requête individuelle qui a un coût dérisoire mais la conséquence d'un suivi agressif qui fait augmenter les coûts d'hébergement de manière significatives voire réduire les performances du système et peut s'apparenter de fait à un DDOS que le respect du souhait initial permettrait d'éviter.
    
    La loi pourrait s'adapter autour de ça. Après tout on a bien des lois plus difficiles à gérer que ça dans le fond.
    
    Répondre
    - [^] # Re: robot.txt
      
      Posté par Jean Gabes (site web personnel) le 19 mars 2025 à 09:45. Évalué à 3 (+1/-0).
      
      Je ne suis pas certain pour le premier point, car il ne me semble que ce n'est pas encore tranché si l’apprentissage des LLM c'est du fair-use ou pas. Si c'est du fair-use, si tu as posté publiquement il n'y a pas d'accès non autorisé, donc là c'est mal barré.
      
      Mais tout à fait d'accord avec le second point, on arrive à un DDOS au final, et ça c'est clairement répréhensible vu le volume.
      
      Juste que répondre sur quelques requêtes qui ne respectent pas le robots.txt ne me semble pas être une bonne défense à l'heure actuelle, même si j’aimerai que ce soit le cas, et qu'on remette un peu d'ordre dans ce far west de l'entrainement des IA.
      
      Répondre
      - [^] # Re: robot.txt
        
        Posté par Renault (site web personnel) le 19 mars 2025 à 09:50. Évalué à 4 (+1/-0).
        
        Juste que répondre sur quelques requêtes qui ne respectent pas le robots.txt ne me semble pas être une bonne défense à l'heure actuelle, même si j’aimerai que ce soit le cas, et qu'on remette un peu d'ordre dans ce far west de l'entrainement des IA.
        
        Tu parles de l'heure actuelle et je suis d'accord avec toi.
        
        Personnellement je pensais adapter la loi pour couvrir notamment le premier point. Cela ne me semble pas insurmontable.
        
        Répondre
    - [^] # Re: robot.txt
      
      Posté par Misc (site web personnel) le 19 mars 2025 à 12:32. Évalué à 9 (+9/-3).
      
      Perso, ça me choque un peu qu'on arrive à finalement dire "faudrait une gestion des droits de copie" (aka des DRMs) sur Linuxfr.
      
      Si l'indexation d'un site entraîne des pannes, on a déjà des lois pour ça comme par exemple la loi 323-1 du code pénal français, qui est utilisé pour punir les délits du genre piratage, mais qui va couvrir aussi un usage excessif d'un système informatique.
      
      Donc si les gens veulent lutter contre ça, il y a les outils. Et c'est pas une loi de plus qui va changer grand chose si on utilise pas les lois existantes, tout comme c'est pas une loi de plus qui va être efficace si les lois existantes ne sont pas appliqués ou applicables ou efficaces.
      
      (mais bon, comme le but de Drew Devault, c'est avant tout de gueuler et d'avoir du pognon, forcément, il va pas passer par la solution en question)
      
      Répondre
      - [^] # Re: robot.txt
        
        Posté par David Demelier (site web personnel) le 19 mars 2025 à 13:40. Évalué à -3 (+1/-6).
        
        (mais bon, comme le but de Drew Devault, c'est avant tout de gueuler et d'avoir du pognon, forcément, il va pas passer par la solution en question)
        
        Et ne pas oublier qu'il est une personne ultra arrogante, fermée d'esprit et pleurnicharde. J'invite toute personne sensée à rester loin de tout projet où il est impliqué.
        
        git is great because linus did it, mercurial is better because he didn't
        
        Répondre
        
        [^] # Re: robot.txt
        
        Posté par Misc (site web personnel) le 19 mars 2025 à 14:11. Évalué à 5 (+2/-0).
        
        Je suis pas d'accord, même si il a une personnalité clivante, il reste quand même quelqu'un qui fait des choses (sourcehut, etc).
        
        Je pense juste qu'on devrait pas porter aux nues les gueulards sans faire preuve d'esprit critique, et j'ai quand même le sentiment que quand ses propos sont relayés, il y a assez souvent beaucoup à relativiser.
        
        Répondre
      - [^] # Re: robot.txt
        
        Posté par vpinon le 19 mars 2025 à 21:49. Évalué à 6 (+5/-1).
        
        Et oui, comme toujours 'chercher une solution technique à un problème "social"' c'est mal barré.
        
        Il est clair que ces bots sont des pillards qui ne respectent pas le lois (ils s'autorisent à siphonner des montagnes d'œuvre protégées pour les régurgiter, y compris quand c'est explicité dans les clauses des sites et des formes automatiquement interprétables comme robot.txt)…
        
        Ce qu'explique DeVault c'est que ça fait perdre beaucoup d'argent aux exploitants des serveurs (surtout les petits y laissent des plumes). L'argent, ce n'est plus un problème technique.
        
        Le FBI pouvait débouler pour mettre la grosse pression à A. Schwarz pour quelques milliers d'articles de sciences.
        
        Mais ça ne bouge plus… parce que c'est devenu la jungle des oligarques qui ont l'oreille de Trump ou de Macron (et autres) ?
        
        Répondre
        
        [^] # Re: robot.txt
        
        Posté par Misc (site web personnel) le 19 mars 2025 à 23:45. Évalué à 2 (+2/-3).
        
        Ce qu'explique DeVault c'est que ça fait perdre beaucoup d'argent aux exploitants des serveurs (surtout les petits y laissent des plumes). L'argent, ce n'est plus un problème technique.
        
        Il ne parle pas d'argent du tout. Et vu ses autres postes (exemple, celui sur le FOSDEM ou il dit "notre argent et notre labeur" en parlant des gens qui sont venus sur le fediverse, alors qu'il n’héberge aucun serveur, qu'il a pas bossé sur un serveur ni rien et qu'il s'est barré du fediverse en 2020), je prendrais pas vraiment ça comme argent comptant ses affirmations.
        
        Je suis aussi sysadmin de profession, et j'ai clairement pas les soucis qu'il a avec des bots de scraping. J'ai pas le souci sur les serveurs mailman, j'ai pas le souci sur les instances wordpress ou les instances discourse. Mais en même temps, je suis clairement pas son pote, donc je suppose que je rentre pas dans "All of my sysadmin friends are dealing with the same problems".
        
        Et pourtant, je vois bien qu'il y a des bots qui passent pour indexer certains trucs comme partout, même sur ma forge personnelle qui tourne sur une VM sous mon bureau. Mais voila, les infras tombent pas, j'ai pas du rajouter de la ram ou du CPU à cause de ça, et j'ai rien fait de particulier, à part ne pas tenter de faire tourner des infras sans espace pour tenir la charge (genre, j'ai pas trouvé que ça serait une bonne idée de tout mettre sur une RPi sorti de la poubelle).
        
        Ensuite, c'est sur que si tout le monde prends des softs non pensés pour être mis sur l'internet et découvre que "oups, ça suffit pas", ça va pas aider. Par exemple, c'est un peu ce qui arriver à codeberg qui a découvert que "oups, on peut scripter l'envoi massif de notification". Ou Gnome avec gitlab, qui a découvert qu'il y a des spammeurs qui vont ouvrir des comptes juste mettre un lien dans un README.md (et pareil, Gitlab, c'est pour ta forge interne ou tu as à priori pas le souci d'un spammeur directement dans ta structure).
        
        Le FBI pouvait débouler pour mettre la grosse pression à A. Schwarz pour quelques milliers d'articles de sciences.
        
        Oui, parce que quelqu'un a porté plainte, ce qui n'a pas l'air d'être le cas ici. Ouais, ça coûte un peu de thune et du temps, mais il y a même pas l'ombre d'un mouvement.
        
        Mais bon, le but de l'article n'est pas de résoudre un probléme, ni même d'aider à résoudre le probléme, c'est juste se positionner et se mettre en avant.
        
        Répondre
        
        [^] # Re: robot.txt
        
        Posté par devnewton 🍺 (site web personnel) le 20 mars 2025 à 11:08. Évalué à 4 (+2/-1).
        
        Je suis aussi sysadmin de profession
        
        C'est quand même un souci d'avoir un internet de plus en plus fermé aux sysadmins du dimanche.
        
        Un peu comme si on laisse des gangs dans les rues agresser les gens en leur expliquant vous n'avez qu'à apprendre un sport de combat ou faire appel à une société de sécurité…
        
        Le post ci-dessus est une grosse connerie, ne le lisez pas sérieusement.
        
        Répondre
        
        [^] # Re: robot.txt
        
        Posté par Ysabeau 🧶 (site web personnel, Mastodon) le 20 mars 2025 à 11:11. Évalué à 2 (+2/-3).
        
        Un peu comme si on laisse des gangs dans les rues agresser les gens en leur expliquant vous n'avez qu'à apprendre un sport de combat ou faire appel à une société de sécurité…
        
        Ben c’est bien ce qui s’est passé, se passe encore pour les femmes : « si vous ne voulez pas être agressées, habillez-vous comme ceci ou cela, ne sortez pas seule le soir, ne soyez pas jolie, ne soyez pas jeune, ne soyez pas polie avec les hommes, ne sortez pas sans un homme pour vous protéger, etc. »
        
        « Tak ne veut pas quʼon pense à lui, il veut quʼon pense », Terry Pratchett, Déraillé.
        
        Répondre
        
        [^] # Re: robot.txt
        
        Posté par Misc (site web personnel) le 20 mars 2025 à 12:07. Évalué à 0 (+1/-4).
        
        C'est un souci, mais c'est rien de nouveau. On va pas me faire croire que l'internet est devenu tout d'un coup plus nocif depuis 1 ou 2 ans. Des bots qui scrapent, il y en a depuis toujours et suffisamment pour que cloudflare (et d'autres) soient largement rentable depuis 15 ans sur la protection des sites web.
        
        Et Drew n'est pas un sysadmin du dimanche au sens ou héberger ses serveurs est son taf. Maintenant, c'est sur que si tu considère que sysadmin, c'est un taf facile qui peut être fait par n'importe quel codeur (une opinion que les codeurs ont assez souvent), découvrir la réalité doit faire un choc, mais peut être que le souci, c'est aussi de nier que sysadmin, c'est un taf.
        
        Un peu comme si on laisse des gangs dans les rues agresser les gens en leur expliquant vous n'avez qu'à apprendre un sport de combat ou faire appel à une société de sécurité…
        
        Si on reprends ta métaphore, alors ce que fait Drew, c'est quand même reprendre un discours d’extrême droite, en exagérant les soucis qu'il a, en expliquant que l'insécurité est partout (vu qu'il dit bien que tout ses amis ont des emmerdes), en ne parlant pas du tout de l'existant ni en faisant le moindre appel à les utiliser, et implicitement, en demandant une plus grande fermeté via des lois qui sont quand même à priori avec un certain potentiel liberticide.
        
        Car bon, des solutions techniques contre le scraping, ça existe, y a des services comme cloudflare et d'autres. Et si des services externes ne vont pas, il y a des solutions comme mod_access_dnsbl + dronebl, etc, etc. Il y a moyen de faire des choses.
        
        Si on veut faire plus, ça serait quoi, un contrôle législatif de qui peut lire ou pas un contenu, un permis pour avoir des programmes qui scrapent l'internet, comme pour les voitures et les motos ? Avoir besoin d'une licence comme pour les ondes radios, car on considère que c'est un commun à arbitrer ?
        
        Car au final, soit l’opérateur du site décide de la vie de son site, et en effet, l'autonomie requiert d'avoir des compétences pour faire ce choix, soit il y a délégation et obligation via quelqu'un d'autre, et soit c'est l'état (ce qui a un certain nombre de souci), soit c'est un groupe qui n'est pas l'état, donc une société privé (qui a aussi des soucis), ou autre chose, et personne ne se bouge pour l'autre chose.
        
        Et c'est bien parce que justement toutes les solutions vont à l'encontre de l'ethos libertaire du libre que personne ne propose rien et se contente de chouiner.
        
        Répondre
        
        [^] # Re: robot.txt
        
        Posté par orfenor le 23 mars 2025 à 01:38. Évalué à 3 (+1/-0).
        
        Je suis aussi sysadmin de profession, et j'ai clairement pas les soucis qu'il a avec des bots de scraping. J'ai pas le souci sur les serveurs mailman, j'ai pas le souci sur les instances wordpress ou les instances discourse.
        
        Et ça prouve quoi ? tu fais une erreur de raisonnement là. Les robots d'IA ne sont pas lancés au hasard sur les serveurs. Elles ciblent des types de contenus. Par exemple :
        
        Si on veut analyser du code moderne, potentiellement bien foutu, SourceHut me parait une bonne piste vu les gens qui l'utilisent.
        
        Quand les IA visitent intensivement le site de ma copine, ce qui les intéresse c'est le contenu informatif sur les jeux et jouets pour enfant, ce qu'on raconte autour, pas la fiche produit qui est de l'info catalogue.
        
        Ce n'est pas qu'une histoire de compétences en gestion de serveur, on ne peut pas accepter que le traffic soit multiplié 2 ou par 10 (ma copine) à cause des IA, la bande passante n'est pas gratuite.
        
        Répondre
        
        [^] # Re: robot.txt
        
        Posté par Misc (site web personnel) le 23 mars 2025 à 14:50. Évalué à 4 (+1/-0).
        
        Les robots d'IA ne sont pas lancés au hasard sur les serveurs. Elles ciblent des types de contenus
        
        Je suis pas sur de voir en quoi ton affirmation sans substance serait plus juste que celle que tu récuses.
        
        Pour commencer, tu supposes que des robots indexent Sourcehut (et d'autres) pour avoir du code. Dans ce cas, pourquoi passer par https et pas via simplement git, qui a le bon goût d'être plus facile pour tout le monde ? Plus facile pour l’hébergeur car pas besoin de parser les infos de git pour afficher de la page, plus facile pour les scrapers, car pas besoin de nettoyer la page. Pas besoin de reconstituer le code via la structure ni rien.
        
        Et on sait que ça passe par https, car l'article dit: "If you think these crawlers respect robots.txt then you are several assumptions of good faith removed from reality".
        
        Mais ça illustre aussi un des soucis des discussions en cours, c'est que personne ne parle vraiment de la chaîne de production exacte, et on mets tout dans un gros nuage "IA" comme dans les diagrammes réseaux.
        
        En l’occurrence, si tu veux entraîner une IA générative, il te faut du contenu pour pondre les stats (aka, le modèle). Il y a assez peu d'acteurs qui ont les thunes pour ça, vu que ça coûte super cher. Il y a beaucoup plus d'acteurs qui vont prendre des modèles existants et faire des produits autour, et c'est sans doute pas ces acteurs qui scrapent quoi que ce soit.
        
        Mais il y a aussi un 3eme groupe, les gens qui vendent des données (avec ou sans le tagging qui va bien, un point aussi oublié) au groupe des gens qui entraînent des modéles. Et pour moi, c'est ce groupe qui contient les gens qui scrapent. De ce qu'on voit discuté ici ou la, c'est des bots qui sont au pire malicieux (pas de respect du robot.txt), au mieux codé n'importe comment. On voit que les bots mentent parfois sur le useragent (mais pas tous), qu'ils passent par des cloud providers pour avoir des IPs en masse (donc ALibaba, GCP, AWS, Azure, etc), voir par des connexions résidentiels. C'est ce qui est dit dans l'article de Drew.
        
        Fondamentalement, ce que je vais supposer, c'est qu'il ne s'agit pas des gros acteurs du style Google ou Microsoft. Les 2 ont des moteurs de recherches (Bing, Google Search) donc des données et des compétences en interne sur le sujet, voir une forge bien rempli (github) si on reste sur la question du code. Il n'y a sans doute pas la liberté institutionnel de faire n'importe quoi à grande échelle sans revue. Ensuite, il y a d'autres gros, comme AWS qui ne se préoccupe beaucoup des questions éthiques, mais je ne voit pas non plus la boite passé par des connexions résidentielles (cad des machines sans doute piratés), ne serait que parce que c'est pas gratuit, et ça laisse des traces.
        
        Du coup, si c'est pas les gros acteurs, il reste qui dans le domaine économique ? Les beaucoup moins gros (en taille). Les petites startup qui veulent faire du pognon rapidement, les groupes criminels mais pas trop qui vendent le fait de spammer les gens, qui font des escroqueries téléphoniques via des centres d'appel ou ils ferment les yeux. Et je mets OpenAI dans le lot aussi en tant que start-up (au niveau de la structure, pas du financement)
        
        Il y a quand même beaucoup qui colle. Dans ce genre de "petite boite", tu va avoir du code écrit sans supervision, parce que c'est une petite boite. Tu va avoir des gens avec un esprit de magouilleur pour gagner un peu de thunes (d’où les changements d'IP, d'user agent, etc). Le code va être pourri car un ingé senior va pas forcement vouloir aller la bas. Et bien sur, sans doute la même relativité éthique que le reste. Il y a suffisamment de pays économiquement dans la merde pour que ça arrive.
        
        Et on le voit, c'est pas le discours qu'on a, car implicitement, on blâme les GAFAMs/Big Tech. Bien sur, ce discours n'est pas arrivé par hasard, car ce sont les dites GAFAMs qui font des annonces et occupent médiatiquement le champ, et voir pour Mata, qui se prennent des procés. C'est aussi des entités connus, qu'on peut facilement blâmer pour ce qui va pas.
        
        Mais le fait de ne pas penser ces scrapers comme des entités qui commettent un crime fait que personne ne semble se poser la question d'impliquer la justice (ou alors, ne va pas suffisamment loin dans l'idée, cf ce thread).
        
        Une fois que tu commences à traiter ça comme un DDoS, et pas comme une façon de venir chouiner sur un bout de l'industrie comme Drew Devault ou Niccolò Venerandi, alors je pense que ça peut avancer.
        
        Ce n'est pas qu'une histoire de compétences en gestion de serveur, on ne peut pas accepter que le traffic soit multiplié 2 ou par 10 (ma copine) à cause des IA, la bande passante n'est pas gratuite.
        
        Mais en l’occurrence, le souci évoqué dans l'article n'est pas la bande passante, mais le temps d'admin sys (explicitement) et le CPU (implicitement). Et je ne peux pas parler pour Sourcehut, mais dans le cas de Pagure et du Gitlab de GNOME (jusqu'à son déplacement sur AWs) qui sont cité dans un autre article, la bande passante n'était sans doute pas le souci. Si c'était le cas, je l'aurais sans doute su car quand la bande passante du DC ou sont les 2 services est saturé, j'ai assez vite des alertes car mes machines sont aussi dans le même DC et comme je suis sur le papier responsable technique de ce bout de DC, j'ai aussi des gens qui me contactent plus vite que Nagios.
        
        Ce qui coinçait pour Pagure (vu que j'ai discuté avec les autres admins), c’était l'usage CPU, à savoir que les bots indexent des pages extrêmement coûteuses à générer coté serveur, et que du coup, le serveur ne peut plus faire son taf. Car quand les services sont pas en carafe ou lent, on va pas se mentir, on regarde quand même assez peu.
        
        C'est aussi ce que je comprends de Sourcehut, car l'article dit: "These bots crawl everything they can find, robots.txt be damned, including expensive endpoints like git blame, every page of every git log, and every commit in every repo".
        
        Que la BP soit un souci pour d'autres, j'en doute pas, c'est documenté. Par exemple, la BP a été mentionné pour Readthedocs dans l'article de libre.news de Niccolò Venerandi, (même si mais ce dernier a aussi clairement fait du remplissage vu qu'il ressort aussi le lien vers le blog de Daniel, et j'ai déjà dit ce que j'en pense).
        
        L'article de Libre.news pointe aussi que RTD (ReadTheDocs) a réussi en contactant une entreprise responsable à avoir une correction et vise un remboursement, chose qui n'est également jamais discuté et qui pourtant semble marcher, ce qui me renforce dans mon analyse, des gens veulent râler avant tout.
        
        Répondre
        
        [^] # Re: robot.txt
        
        Posté par orfenor le 24 mars 2025 à 07:50. Évalué à 2 (+0/-0).
        
        Je suis pas sur de voir en quoi ton affirmation sans substance serait plus juste que celle que tu récuses.
        
        Tu as raison :-)
        
        Sur le reste, dans mes logs, les bots "nuisibles" identifiés sont ceux des IA (cf la liste du projet https://github.com/ai-robots-txt/ai.robots.txt). Et c'est vrai , le temps CPU est le plus nuisible. La bande passante j'enb parlais parce que c'est un coût facile à mesurer.
        
        Merci pour tes remarques.
        
        Répondre
  - [^] # Re: robot.txt
    
    Posté par Benoît Sibaud (site web personnel) le 19 mars 2025 à 10:34. Évalué à 10 (+8/-0).
    
    Un autre exemple avec le droit sui generis des bases de données ?
    https://europa.eu/youreurope/business/running-business/intellectual-property/database-protection/index_fr.htm
    
    On peut faire des requêtes sur une base de données, mais pas multiplier les requêtes pour extraire l'intégralité de la base et la réutiliser ailleurs.
    
    Répondre
    - [^] # Re: robot.txt
      
      Posté par arnaudus le 19 mars 2025 à 17:19. Évalué à 5 (+3/-1).
      
      Le problème, c'est que les lois ne te protègent que des gens qui sont soumis à ces lois, en théorie ou en pratique.
      
      Si tu veux pouvoir poursuivre en justice un malotru européen, tu peux tenter le coup. Mais si c'est un ado Philippin qui passe par un proxy aux Malouines, tu as autant de recours légaux que si tu portes plainte contre une météorite pour homicide involontaire.
      
      Il ne semble pas exister d'autres solutions que de protéger les serveurs de manière logicielle, et sélectionnant les requêtes en fonction de critères qui ne semblent pas impossible à définir, en espérant de ne pas avoir trop de faux positifs.
      
      Répondre
      - [^] # Re: robot.txt
        
        Posté par Ysabeau 🧶 (site web personnel, Mastodon) le 19 mars 2025 à 17:46. Évalué à 7 (+4/-0). Dernière modification le 20 mars 2025 à 15:05.
        
        Si tu veux pouvoir poursuivre en justice un malotru européen, tu peux tenter le coup. Mais si c'est un ado Philippin qui passe par un proxy aux Malouines, tu as autant de recours légaux que si tu portes plainte contre une météorite pour homicide involontaire.
        
        Alors, si ça n’a pas changé (et je doute que ça ait changé d’ailleurs), le principe qui s’applique est celui où l’infraction est constatée. C’est pour ça que le RGPD s’applique aux sites américains par exemple et que certains sites américains ne sont pas accessibles en Europe pour ne pas avoir à se plier aux règles du RGPD. C’est aussi pour ça que les sites qui proposent des EPUB dans le domaine public ont souvent un script qui permet de bloquer (ou quel que soit le terme adéquat) les téléchargements d’internautes pour lesquels les œuvres ne sont pas encore dans le domaine public. Les recours légaux existent. Après…
        
        De fait, ton ado philippin peut être poursuivi en justice. De fait aussi, héberger son site web ailleurs qu’en France par exemple, ne fait pas que tu peux y mettre du contenu illicite selon la loi française en toute impunité.
        
        « Tak ne veut pas quʼon pense à lui, il veut quʼon pense », Terry Pratchett, Déraillé.
        
        Répondre
- [^] # Re: robot.txt
  
  Posté par orfenor le 19 mars 2025 à 14:00. Évalué à 4 (+2/-0).
  
  Le fichier Robots.txt c'est efficace si les robots des IA obtempèrent ET s'il est à jour. Aucun de ces critères n'est facile à respecter dans la courses aux IA. En plus les IA scannent aussi avant de se faire connaître.
  
  Pour les robots connus, on est vite obligé de doubler le fichier Robots avec des directives serveur.
  
  Il y a un projet Github pour garder une liste à jour:
  https://github.com/ai-robots-txt/ai.robots.txt
  
  Sur le petit serveur de ma copine, les IA sont une terrible plaie, qui multiplie considérablement la charge (fois 10 et plus).
  
  Répondre
  - [^] # Re: robot.txt
    
    Posté par pulkomandy (site web personnel, Mastodon) le 19 mars 2025 à 17:07. Évalué à 6 (+4/-0).
    
    ça dépend ce que tu veux faire.
    
    Par exemple sur mon site web, le robots.txt met un crawl-delay de 5 minutes pour tout le monde par défaut. Je n'ai pas besoin que les robots indexent mon site plusieurs dizaines de fois par jour, le contenu change assez peu.
    
    Si les robots LLM respectaient ce réglage, je n'aurait pas de problème de charge CPU ou de bande passante (j'ai d'autres problèmes personnels avec les LLM mais c'est une autre histoire). ça règle le deuxième problème: ce réglage étant valide pour tout le monde, il n'y a pas de "course".
    
    Il en est de même pour les liens avec rel="nofollow" que les robots ne devraient normalement pas utiliser (et je suppose que les gens qui se plaignent de problème de charge CPU sur leurs applis web sont un minimum compétents et ont déjà mis en place ce type de mesures pour éviter que les robot scannent des choses qui n'ont pas besoin de l'être).
    
    Sauf que non: certains de ces robots ignorent complètement le robots.txt, d'autres ignorent le crawl-delay, d'autres refusent un crawl-delay supérieur à 10 secondes. Donc je les ai exclus par d'autres moyens, parce que ce mois ci c'était 2 adresses IP qui représentaient plus de 50% du traffic arrivant chez moi.
    
    Répondre
    - [^] # Re: robot.txt
      
      Posté par orfenor le 19 mars 2025 à 18:29. Évalué à 3 (+1/-0).
      
      Ce que je sous entendais, c'est que les robots d'IA ne respectent rien. Le projet Github que j'ai indiqué en parle dans ses multiples liens de référence. Donc on les bloque avec le serveur web.
      
      Répondre
- [^] # Re: robot.txt
  
  Posté par Andre Rodier (site web personnel) le 20 mars 2025 à 10:16. Évalué à 4 (+2/-0).
  Je crois que ce n'est plus vraiment respecté, et a été étendu / remplacé par :
  - des entêtes http, par exemple X-Robots-Tag "noindex, nofollow";
  - des entrêtes html, par exemple <meta name="robots" content="noindex,nofollow">
  Apporter un peu de structure à ce fichier crée aux débuts d'internet, c'est positif.
  Répondre
# La BnF et les sites sous SPIP

Posté par Ysabeau 🧶 (site web personnel, Mastodon) le 19 mars 2025 à 15:25. Évalué à 6 (+3/-0).

Pour info, puisqu'il a été question de robots.txt.

Le site de support du CMS SPIP, discuter.sip.net a reçu récemment une requête de la BnF concernant l'archivage des sites SPIP.

La BnF collecte le web français et les archive depuis 1996. Je cite :

À ce titre, nous archivons de nombreux sites utilisant le CMS SPIP, afin d’en conserver la mémoire. Malheureusement, nous avons constaté à plusieurs reprises un blocage de sécurité de nos robots de collecte. Ce blocage est en lien avec la présence du mot « bot » dans le user agent de notre robot et intervient au niveau de l’écran de sécurité.

Dans les réponses, on signale que les robots sont bloqués quant le site est surchargé.

« Tak ne veut pas quʼon pense à lui, il veut quʼon pense », Terry Pratchett, Déraillé.

Répondre
- [^] # Re: La BnF et les sites sous SPIP
  
  Posté par Jérôme FIX (site web personnel) le 19 mars 2025 à 19:38. Évalué à 1 (+0/-0).
  
  La BnF sait être aggressive aussi dans ses crawls. Cela ne m'étonne pas qu'un paquet de sites les bloquent définitivement.
  
  Répondre
  - [^] # Re: La BnF et les sites sous SPIP
    
    Posté par Ysabeau 🧶 (site web personnel, Mastodon) le 19 mars 2025 à 21:10. Évalué à 3 (+0/-0).
    
    Apparemment, la personne de la BnF qui a posé la question va soumettre un ticket à son organisme.
    
    « Tak ne veut pas quʼon pense à lui, il veut quʼon pense », Terry Pratchett, Déraillé.
    
    Répondre
# La solution de Xe Iaso

Posté par Colargol le 19 mars 2025 à 17:45. Évalué à 7 (+5/-0). Dernière modification le 19 mars 2025 à 17:45.

Xe Iaso a été confrontée au même problème avec le robot AI d'Amazon et a mis en place un reverse proxy qui effectue une validation "preuve de travail" avant d'accéder à la ressource demandée.

Répondre
- [^] # Re: La solution de Xe Iaso
  
  Posté par vpinon le 19 mars 2025 à 21:34. Évalué à 2 (+0/-0).
  
  Merci !
  
  Son post suivant raconte un peu plus de quoi il s'agit…
  
  Répondre
- [^] # Re: La solution de Xe Iaso
  
  Posté par Psychofox (Mastodon) le 19 mars 2025 à 22:56. Évalué à 3 (+0/-0).
  
  hum…
  
  EDIT(2025-01-18 19:00 UTC):
  
  I give up. I moved the Gitea server back behind my VPN. I'm working on a proof of work reverse proxy to protect my server from bots in the future. I'll have it back up soon.
  
  Répondre
# Menace

Posté par Psychofox (Mastodon) le 19 mars 2025 à 22:54. Évalué à 4 (+2/-1).

I will never work with you again, and I will remember which side you picked when the bubble bursts.

Ça c'est de la menace. Je pense qu'ils tremblent tous.

Répondre

Envoyer un commentaire

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.