Lien Facebook admet s'être appuyé sur des livres "piratés" pour former son IA

Posté par volts (Mastodon) le 17 janvier 2024 à 11:45.

Étiquettes :

jan.

2024

https://actualitte.com/article/115254/legislation/facebook-admet-s-etre-appuye-sur-des-livres-pirates-pour-former-son-ia

# Pourquoi ?

Posté par vmagnin (site web personnel) le 17 janvier 2024 à 19:56. Évalué à 7.

Selon OpenAI, « Le droit d'auteur couvre aujourd'hui pratiquement toute sorte d'expression humaine – y compris les billets de blog, les photographies, les publications sur les forums, des morceaux de code informatique et des documents gouvernementaux – il serait impossible d'entraîner les modèles d'IA leaders d'aujourd'hui sans utiliser de matériaux protégés par le droit d'auteur. »

Si c'est impossible sans violer le droit d'auteur, pourquoi le faire ? Est-ce que quelque chose les oblige à le faire ? Non.
- [^] # Re: Pourquoi ?
  
  Posté par GG (site web personnel) le 19 janvier 2024 à 09:01. Évalué à 3.
  
  Deux poids, deux mesures:
  
  https://fr.wikipedia.org/wiki/Aaron_Swartz#Affaire_JSTOR
  
  Pourquoi bloquer la publicité et les traqueurs : https://greboca.com/Pourquoi-bloquer-la-publicite-et-les-traqueurs.html
  - [^] # Re: Pourquoi ?
    
    Posté par Renault (site web personnel) le 19 janvier 2024 à 10:26. Évalué à 2.
    
    Ce n'est pas exactement la même chose non plus, ce serait bien d'éviter les parallèles foireux.
    Meta n'a pas téléchargé et rediffusé gratuitement des ouvrages protégés par le droit d'auteur, ce que Swartz a fait.
    
    Meta a utilisé de telles œuvres en interne pour entrainer un logiciel et le droit américain et européens sont assez flous sur la question de si c'est autorisé ou pas. Ce sera à la justice de trancher et il y a déjà pas mal d'affaires en cours sur la question.
    
    La seule chose qui est probablement certaine c'est que l'IA qui ressort des données d'entrainement comme une contrefaçon car ça ne serait plus de simple extraits pourrait avoir des problèmes de même que l'usage d'un texte ou image réutilisant ceux-ci (donc l'usager qui republie de telles données générées). Pour la phase d'entrainement c'est vraiment moins certain que ces entreprises aient violé la loi.
    - [^] # Re: Pourquoi ?
      
      Posté par GG (site web personnel) le 19 janvier 2024 à 10:50. Évalué à 2.
      
      Considérons uniquement les œuvres sous licences CC--NC ou CC--ND
      Dans le premier cas, il y a interdiction d'utiliser tout ou partie de l'œuvre dans un produit commercial ou sur un site avec de la publicité etc.
      Dans le second cas, il y a interdiction d'utiliser tout ou partie de l'œuvre pour en faire un produit dérivé.
      
      Les IA font des produits dérivés, et c'est généralement dans un cadre commercial (vente d'abonnements) ou avec affichage publicitaire, à partir d'œuvres dont la licence interdit justement leur utilisation dans ces cas.
      Les différentes sociétés qui ont entrainés et mis en place des IA l'ont fait sans se soucier de respecter les droits d'auteurs.
      
      Aaron Swartz a récupéré des œuvres financés par des fonds publiques, dont le téléchargement était autorisé, sans limites. Alors certes, il y a le travail de numérisation et de stockage à prendre en compte, mais on est loin d'une contrefaçon ou du non respect des droits d'auteur. D'ailleurs l'association JSTOR n'a pas porté plainte. C'est le Procureur des États-unis qui a engagé les poursuites.
      
      Pourquoi bloquer la publicité et les traqueurs : https://greboca.com/Pourquoi-bloquer-la-publicite-et-les-traqueurs.html
      - [^] # Re: Pourquoi ?
        
        Posté par Renault (site web personnel) le 19 janvier 2024 à 11:17. Évalué à 5.
        
        Les IA font des produits dérivés
        
        En l'état actuel, non, du moins c'est le cas si l'IA en question recrache trop de données d'entrainement ce qui arrive mais n'est pas systématique.
        
        La justice se prononcera de toute façon sur ça prochainement, mais cela n'est pas si catégorique que tu ne le dis. Et du coup cela met un peu à mal ton argumentaire.
        
        Les différentes sociétés qui ont entrainés et mis en place des IA l'ont fait sans se soucier de respecter les droits d'auteurs.
        
        Il y a clairement une négligence manifeste de cela de leur part.
        Cela ne veut pas dire que de s'entrainer sur ces œuvres étaient illégales pour autant. La loi est floue à ce sujet à cause du fair use.
        
        Mais beaucoup d'entreprises n'ont pas fait beaucoup d'efforts pour s'assurer que les données d'entrainement ne fuitent pas. Et cela risque de les faire tomber. On verra bien.
        
        Aaron Swartz a récupéré des œuvres financés par des fonds publiques, dont le téléchargement était autorisé, sans limites.
        
        Hum, de ce que j'ai lu du dossier Swartz n'avait pas le droit de télécharger ce qu'il a téléchargé et de la manière dont il l'a fait. C'était des documents disponibles sous conditions, il le savait, il les a pris et republié en sachant pertinemment qu'il n'en avait pas le droit. Il n'y avait pas de flou là dessus, et le fait que ces documents étaient financés par de l'argent public ne lui donnait aucun droit de plus.
        
        D'ailleurs l'association JSTOR n'a pas porté plainte.
        
        Cela ne change rien.
        
        C'est le Procureur des États-unis qui a engagé les poursuites.
        
        Et donc ? Si le Procureur estime qu'il doit agir, où est le problème ? On peut critiquer les méthodes employées après, mais la procédure en elle même n'a rien de choquant dans un État de droit.
        
        Tu compares vraiment deux situation qui ne sont pas comparables. Ce n'est pas parce qu'il y a du droit d'auteur dans le dossier que c'est pareil.
        
        De plus, les sociétés qui ont travaillé sur ces IA ont aussi des procédures judiciaires à ce sujet. Elles ne sont pas "relaxes" et selon l'évaluation de la situation les conséquences pour elles pourraient être terribles, du moins pour celles qui ont des finances fragiles et un business model qui repose exclusivement sur ces produits.