Si on veut imiter la connerie humaine on est bien obligé d'imiter les connards.
Du coup probablement qu'un jour on en arrivera à légiférer là dessus. Il faudra pouvoir identifier les visiteurs avec leur empreinte génétique dans les entêtes pour que ce soit applicable. On n'a pas le choix voyez vous.
Un loi sur un tel sujet technique? J'ai du mal à voir. A la limite le fait de ne pas rendre indisponible un autre système d'information, ça c'est légalisable, et là on pourrait creuser en disant qu'il est admins que si un robots.txt existe, alors il est communément admis que le respecter est une bonne chose.
Après le site tu le mets bien à disposition du public, donc en quoi une requête d'un outil serait moins légitime (point de vue légal) que celle d'un autre utilisateur? Après je parle bien d'une requête, et pas d'une armée mal codée qui relis les pages encore et encore alors qu'il n'y a aucune modification dessus.
Je ne dis pas que l'aime ce qu'ils font, mais je pense que l'assise légale pour les empêcher ne doit pas être énorme. Quand on voit que ces sociétés font du respect de la propriété intellectuelle des autres, je pense que le soucis de mettre au tas les sites n'est que le cadet de leurs problèmes malheureusement.
Après le site tu le mets bien à disposition du public, donc en quoi une requête d'un outil serait moins légitime (point de vue légal) que celle d'un autre utilisateur? Après je parle bien d'une requête, et pas d'une armée mal codée qui relis les pages encore et encore alors qu'il n'y a aucune modification dessus.
On peut attaquer l'usage plutôt que la requête en elle même.
L'objectif est de collecter de l'info pour en faire quelque chose. Un service autour d'un LLM, l'apprentissage du LLM, ou alimenter la BDD d'un moteur de recherche. On pourrait arguer que le propriétaire du serveur ne souhaite pas que le contenu certes public puisse alimenter ces services et que on devrait pouvoir respecter ce choix.
Ou de même attaquer non pas la requête individuelle qui a un coût dérisoire mais la conséquence d'un suivi agressif qui fait augmenter les coûts d'hébergement de manière significatives voire réduire les performances du système et peut s'apparenter de fait à un DDOS que le respect du souhait initial permettrait d'éviter.
La loi pourrait s'adapter autour de ça. Après tout on a bien des lois plus difficiles à gérer que ça dans le fond.
Je ne suis pas certain pour le premier point, car il ne me semble que ce n'est pas encore tranché si l’apprentissage des LLM c'est du fair-use ou pas. Si c'est du fair-use, si tu as posté publiquement il n'y a pas d'accès non autorisé, donc là c'est mal barré.
Mais tout à fait d'accord avec le second point, on arrive à un DDOS au final, et ça c'est clairement répréhensible vu le volume.
Juste que répondre sur quelques requêtes qui ne respectent pas le robots.txt ne me semble pas être une bonne défense à l'heure actuelle, même si j’aimerai que ce soit le cas, et qu'on remette un peu d'ordre dans ce far west de l'entrainement des IA.
Juste que répondre sur quelques requêtes qui ne respectent pas le robots.txt ne me semble pas être une bonne défense à l'heure actuelle, même si j’aimerai que ce soit le cas, et qu'on remette un peu d'ordre dans ce far west de l'entrainement des IA.
Tu parles de l'heure actuelle et je suis d'accord avec toi.
Personnellement je pensais adapter la loi pour couvrir notamment le premier point. Cela ne me semble pas insurmontable.
# robot.txt
Posté par Nicolas Boulay (site web personnel) . Évalué à 3 (+1/-1).
Robot.txt a été créé exactement pour cette raison du temps des moteurs de recherches. Est-ce que l'on connait la légalité de ne pas le respecter ?
Certains propriétaires utilisent leur application pour faire les requêtes depuis les smartphones ! Cela devient n'importe quoi.
"La première sécurité est la liberté"
[^] # Re: robot.txt
Posté par wilk . Évalué à 2 (+0/-0).
Si on veut imiter la connerie humaine on est bien obligé d'imiter les connards.
Du coup probablement qu'un jour on en arrivera à légiférer là dessus. Il faudra pouvoir identifier les visiteurs avec leur empreinte génétique dans les entêtes pour que ce soit applicable. On n'a pas le choix voyez vous.
[^] # Re: robot.txt
Posté par Jean Gabes (site web personnel) . Évalué à 3 (+1/-0).
Un loi sur un tel sujet technique? J'ai du mal à voir. A la limite le fait de ne pas rendre indisponible un autre système d'information, ça c'est légalisable, et là on pourrait creuser en disant qu'il est admins que si un robots.txt existe, alors il est communément admis que le respecter est une bonne chose.
Après le site tu le mets bien à disposition du public, donc en quoi une requête d'un outil serait moins légitime (point de vue légal) que celle d'un autre utilisateur? Après je parle bien d'une requête, et pas d'une armée mal codée qui relis les pages encore et encore alors qu'il n'y a aucune modification dessus.
Je ne dis pas que l'aime ce qu'ils font, mais je pense que l'assise légale pour les empêcher ne doit pas être énorme. Quand on voit que ces sociétés font du respect de la propriété intellectuelle des autres, je pense que le soucis de mettre au tas les sites n'est que le cadet de leurs problèmes malheureusement.
[^] # Re: robot.txt
Posté par Renault (site web personnel) . Évalué à 4 (+1/-0).
On peut attaquer l'usage plutôt que la requête en elle même.
L'objectif est de collecter de l'info pour en faire quelque chose. Un service autour d'un LLM, l'apprentissage du LLM, ou alimenter la BDD d'un moteur de recherche. On pourrait arguer que le propriétaire du serveur ne souhaite pas que le contenu certes public puisse alimenter ces services et que on devrait pouvoir respecter ce choix.
Ou de même attaquer non pas la requête individuelle qui a un coût dérisoire mais la conséquence d'un suivi agressif qui fait augmenter les coûts d'hébergement de manière significatives voire réduire les performances du système et peut s'apparenter de fait à un DDOS que le respect du souhait initial permettrait d'éviter.
La loi pourrait s'adapter autour de ça. Après tout on a bien des lois plus difficiles à gérer que ça dans le fond.
[^] # Re: robot.txt
Posté par Jean Gabes (site web personnel) . Évalué à 2 (+0/-0).
Je ne suis pas certain pour le premier point, car il ne me semble que ce n'est pas encore tranché si l’apprentissage des LLM c'est du fair-use ou pas. Si c'est du fair-use, si tu as posté publiquement il n'y a pas d'accès non autorisé, donc là c'est mal barré.
Mais tout à fait d'accord avec le second point, on arrive à un DDOS au final, et ça c'est clairement répréhensible vu le volume.
Juste que répondre sur quelques requêtes qui ne respectent pas le robots.txt ne me semble pas être une bonne défense à l'heure actuelle, même si j’aimerai que ce soit le cas, et qu'on remette un peu d'ordre dans ce far west de l'entrainement des IA.
[^] # Re: robot.txt
Posté par Renault (site web personnel) . Évalué à 4 (+1/-0).
Tu parles de l'heure actuelle et je suis d'accord avec toi.
Personnellement je pensais adapter la loi pour couvrir notamment le premier point. Cela ne me semble pas insurmontable.
[^] # Re: robot.txt
Posté par Benoît Sibaud (site web personnel) . Évalué à 6 (+3/-0).
Un autre exemple avec le droit sui generis des bases de données ?
https://europa.eu/youreurope/business/running-business/intellectual-property/database-protection/index_fr.htm
On peut faire des requêtes sur une base de données, mais pas multiplier les requêtes pour extraire l'intégralité de la base et la réutiliser ailleurs.
Envoyer un commentaire
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.