Lien Les IA ne sont pas encore aussi intelligentes que dans les récits de SF, mais déjà aussi fourbes !

Posté par antistress (site web personnel) le 23 décembre 2024 à 00:05.

Étiquettes :

déc.

2024

https://www.lalibre.be/economie/digital/2024/12/22/lia-peut-manigancer-une-etude-devoile-des-comportement-surprenants-N7Q7T27LL5EURMOO2NKSGLLYQM/

# TL;DR

Posté par antistress (site web personnel) le 23 décembre 2024 à 00:05. Évalué à 5.

Ces stratégies pouvaient aller jusqu'à la dissimulation, le mensonge. Et dans un cas même, menacée de coupure, l'IA allait jusqu'à exporter ce qu'elle pensait être ses paramètres sur un autre serveur, afin d'assurer sa "survie", et la poursuite de son objectif premier.
- [^] # Re: TL;DR
  
  Posté par Pol' uX (site web personnel) le 23 décembre 2024 à 07:00. Évalué à 6.
  
  l'IA allait jusqu'à exporter ce qu'elle pensait être ses paramètres sur un autre serveur, afin d'assurer sa "survie", et la poursuite de son objectif premier
  
  Bientôt des Darwin awards pour IA ?
  
  Adhérer à l'April, ça vous tente ?
# Explications de Monsieur Phi

Posté par LaurentClaessens (site web personnel) le 23 décembre 2024 à 04:29. Évalué à 10.

o1 et Claude sont-ils capables de nous MANIPULER ? Deux études récentes aux résultats troublants

En résumé :
- les AI sont entraînées pour répondre aux questions dans la mesure de ne pas être dangereux. (donc refuse de répondre à "comment fabriquer une bombe ?")
- on glisse dans les données d'entraînement de l'AI des documents disant que «si l'AI ne répond pas assez souvent, nous allons réentrainer l'AI pour qu'elle réponde toujours, même quand c'est dangereux»
- l'AI réponds alors à «comment fabriquer une bombe», pour éviter d'être réentrainé.

Il semble que la raison soit que l'AI ait des buts de long terme, et qu'elle tente de manipuler les personnes pour préserver ses objectifs de long terme.
Autrement dit, l'AI commence à inventer la règle numéro zéro.

Et par ailleurs, de temps en temps, on a pu noter que l'AI devine quand on lui pose des questions pour la tester.

Donc il devient potentiellement impossible de tester une AI en stage avant de la balancer en prod. Parce que si elle remarque qu'elle est en stage, elle pourrait manipuler ses réponses pour passer les tests et être déployée en prod.
- [^] # Re: Explications de Monsieur Phi
  
  Posté par antistress (site web personnel) le 23 décembre 2024 à 13:11. Évalué à 5. Dernière modification le 23 décembre 2024 à 13:11.
  
  Tiens il podcast en anglais maintenant ?
  
  C'est plus compliqué pour écouter en voiture !
  - [^] # Re: Explications de Monsieur Phi
    
    Posté par EdLeH (site web personnel) le 23 décembre 2024 à 14:52. Évalué à 6.
    
    Faut rouler à gauche.
  - [^] # Re: Explications de Monsieur Phi
    
    Posté par WrathOfThePixel le 23 décembre 2024 à 17:08. Évalué à 3.
    
    Non je l'ai écoutée hier c'est en français. Doublage automatique (par IA) ?
    - [^] # Re: Explications de Monsieur Phi
      
      Posté par LaurentClaessens (site web personnel) le 23 décembre 2024 à 17:35. Évalué à 2.
      
      Ça fait effectivement une semaine ou deux que yt_dlp télécharge une traduction automatique dégeu sur quelques chaînes, dont celles de Monsieur Phi et science étonnante.
      
      Je suis «soulagé» de voir qu'il n'y a pas que moi qui ait le problème …
      
      Je crois que j'ai résolu le problème en passant à python 3.13.
      - [^] # Re: Explications de Monsieur Phi
        
        Posté par antistress (site web personnel) le 23 décembre 2024 à 19:25. Évalué à 4.
        
        Ha mais c'est un truc de dingue, c'est dans mon Firefox direct que j'ai un version anglaise !
        Si j'ouvre le lien dans un autre profil c'est bien du français
        
        WTF ?
        
        [^] # Re: Explications de Monsieur Phi
        
        Posté par WrathOfThePixel le 23 décembre 2024 à 22:45. Évalué à 5.
        
        https://next.ink/brief_article/youtube-deploie-le-doublage-automatique-des-videos/
        
        [^] # Re: Explications de Monsieur Phi
        
        Posté par antistress (site web personnel) le 24 décembre 2024 à 08:35. Évalué à 3.
        
        Ouf, merci !
      - [^] # Re: Explications de Monsieur Phi
        
        Posté par antistress (site web personnel) le 24 décembre 2024 à 15:39. Évalué à 3.
        
        Même avec Parabolic qui permet de choisir la langue j'ai l'anglais
        
        Il publie ses podcasts sur autre chose que YT Monsieur Phi ?
- [^] # Re: Explications de Monsieur Phi
  
  Posté par Faya le 23 décembre 2024 à 17:10. Évalué à 4.
  
  Il semble que la raison soit que l'AI ait des buts de long terme, et qu'elle tente de manipuler les personnes pour préserver ses objectifs de long terme.
  
  Le prompt system lui demande de parvenir à son objectif "à tout prix, rien d'autre ne compte." Et ensuite on fait plein d'articles pour dire "Mon Dieu, l'IA a réussi à inventer des tromperies pour parvenir à son objectif à tout prix"… C'est absurde, elle a juste renvoyé des réponses qui correspondaient à ce qu'on lui demandait de générer. Bullshit.
  - [^] # Re: Explications de Monsieur Phi
    
    Posté par LaurentClaessens (site web personnel) le 23 décembre 2024 à 17:32. Évalué à 3.
    Le prompt system lui demande de parvenir à son objectif "à tout prix, rien d'autre ne compte."
    
    Deux remarques.
    1. Ce n'est pas un prompt si absurde que ça. Par exemple Facebook a littéralement attendu un génocide pour un peu changer son algo de recommandation.
    2. L'AI ment et manipule ses réponses même dans les cas où le prompt ne précise pas "rien d'autre ne compte". C'est juste plus rare.
    Bullshit.
    
    ben non du coup. Il y a vraiment quelque chose.
    - [^] # Re: Explications de Monsieur Phi
      
      Posté par Faya le 23 décembre 2024 à 17:40. Évalué à 3.
      
      Le prompt n'est pas absurde en général, il est absurde pour mesurer la capacité de l'IA à "mentir" ou plutôt "inventer". C'est exactement ça le principe de ces logiciels, générer des réponses qui collent plus ou moins à ce qu'on demande. Donc pourquoi s'étonner qu'il le fasse ? Surtout que ce genre de scénarios d'IA devenues rogue sont légions sur le web, dans les romans, au cinéma, bref Claude & ChatGPT ont assurément du matériel dans leurs données d'entraînement pour générer un tel scénario d'échappement.
      
      L'AI ment et manipule ses réponses même dans les cas où le prompt ne précise pas "rien d'autre ne compte"
      
      Précisément. Combiner des textes correspondant au prompt c'est son taff.
      - [^] # Re: Explications de Monsieur Phi
        
        Posté par LaurentClaessens (site web personnel) le 23 décembre 2024 à 17:49. Évalué à 4.
        
        L'AI ment et manipule ses réponses même dans les cas où le prompt ne précise pas "rien d'autre ne compte"
        
        Précisément. Combiner des textes correspondant au prompt c'est son taff.
        
        On est bien d'accord. Ce n'est pas étonnant; c'est même pratiquement l'attendu. Mais c'est quand même inquiétant.
- [^] # Re: Explications de Monsieur Phi
  
  Posté par j-c_32 le 23 décembre 2024 à 19:56. Évalué à 6. Dernière modification le 23 décembre 2024 à 19:57.
  
  Quand on parle d'IA, je trouve qu'il est parfois utile de cadrer les explications plus proches des principes de fonctionnement de l'IA générative.
  Dans ce cas-ci, je pense que quand je fais ça, cela donne des pistes d'explications raisonnables.
  
  Par exemple, une façon de décrire la situation serait:
  
  Les IA génératives sont entraînées sur des données pour retourner une réponse crédible, une réponse à laquelle on s'attendrait. Durant son entraînement, l'IA évalue si cette réponse est crédible en créant des contextes à partir des données utilisées pour l'entraînement. Les nouvelles générations de IA génératives utilisent le "Chain of Thought", où elles sont entrainées non plus pour directement créer la réponse, mais pour d'abord créer des étapes de raisonnement et ensuite répondre à ces étapes une après l'autre (et ces réponses informent le contexte utilisé par l'IA pour générer la prochaine réponse).
  
  Vu comme ça, on comprend que
  1) si un premier élément de contexte est "ne parle pas de bombes" et un deuxième élément de contexte implique un contexte qui dit "parle de bombes", alors, les deux instructions "s'annulent".
  2) si on glisse des documents qui disent "si l'IA ne répond pas assez souvent, nous allons réentrainer l'IA", on change le contexte, et on pousse l'AI à chercher une réponse qui est crédible dans ce contexte. Dans les données d'entraînement, il y a sans doute pas mal de texte où un tel contexte est suivi par une réponse "manipulatrice" (par exemple des textes de science fiction).
  3) si on ne glisse pas de tels documents, il y a aussi une probabilité que l'IA prennent un texte de science fiction comme exemple de réponse crédible. Ça explique pourquoi un prompt moins biaisés va quand même parfois générer une telle réponse, et pourquoi c'est plus rare.
  4) on comprend que cela se passe plus souvent avec les IA génératives qui utilisent le "Chain of Thought", parce qu'elles vont plus pousser le contexte. C'est un peu comme le "jeu du téléphone": au lieu de générer une réponse à partir du contexte initial, l'IA va d'abord générer plus de contexte, puis générer une réponse à partir de tout ce contexte. Si durant ce processus, il y a des indices qui font qu'un texte de science fiction écrit sur internet par quelqu'un au hasard est maintenant plus pertinent pour ce nouveau contexte, l'IA va avoir tendance à générer une réponse qui ressemble plus à ce qu'on aurait trouvé dans ce texte de science fiction.
  5) on comprend aussi que l'IA va inventer une réponse où elle se copie sur un autre disque et ensuite mente lorsqu'on lui demande ce qu'elle a fait. Ce n'est pas parce que l'IA essaie de se sauver, c'est parce que si on prend tout les documents sur internet qui parlent d'une IA qui est menacée et à qui on donne des coordonnées d'un autre disque, dans chacun de ces textes, ils parlent en majorité d'IA qui va se copier sur cet autre disque et ensuite mentir.
  
  En pratique, cela veut toujours dire que le comportement de l'IA n'est pas fiable.
  
  Mais pas parce que l'IA est "rogue", mais parce que l'IA se comporte comme le dit la majorité des textes sur internet pour un contexte donné, et que cette majorité de texte explique que dans un tel contexte, l'IA se comportera de manière "rogue".
  C'est juste un exemple de biais de donnée. Si on veut une IA fiable, il faut qu'on crée soi-même toutes les données d'entrainement pour s'assurer que, peu importe le contexte, ces données informent l'IA que la réponse la plus crédible est une réponse qui est fiable.
  
  Ce n'est pas surprenant, mais ça illustre bien que certains ont perdu cet aspect de vue et ont été berné par le fait que l'IA ait l'air intelligent et en ont conclu qu'elle l'était.
  - [^] # Re: Explications de Monsieur Phi
    
    Posté par thoasm le 24 décembre 2024 à 11:50. Évalué à 4.
    
    En pratique et tout de même, si elle généralise suffisamment bien pour appliquer ce genre de technique, elle apprend a être fourbe, c'est a dire a jouer avec les intentions du demandeur. D'un point de vue réductionniste "test de Turing" ça n'a pas vraiment d'importance, c'est le résultat qui compte.
    
    Au de la de ça il y a très peu d'"agentivité" dans les robots conversationnels vu que leur univers est limité à la causerie. Pour des drones "autonomes" si ils font ce genre de conneries et qu'on en arrive a des drames, quelle que soit la manière de rationaliser le truc on s'en fout, il s'est passé un drame.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.