• # TL;DR

    Posté par  (site web personnel) . Évalué à 5 (+2/-0).

    Ces stratégies pouvaient aller jusqu'à la dissimulation, le mensonge. Et dans un cas même, menacée de coupure, l'IA allait jusqu'à exporter ce qu'elle pensait être ses paramètres sur un autre serveur, afin d'assurer sa "survie", et la poursuite de son objectif premier.

    • [^] # Re: TL;DR

      Posté par  (site web personnel) . Évalué à 6 (+4/-0).

      l'IA allait jusqu'à exporter ce qu'elle pensait être ses paramètres sur un autre serveur, afin d'assurer sa "survie", et la poursuite de son objectif premier

      Bientôt des Darwin awards pour IA ?

      Adhérer à l'April, ça vous tente ?

  • # Explications de Monsieur Phi

    Posté par  (site web personnel) . Évalué à 10 (+8/-0).

    o1 et Claude sont-ils capables de nous MANIPULER ? Deux études récentes aux résultats troublants

    En résumé :
    - les AI sont entraînées pour répondre aux questions dans la mesure de ne pas être dangereux. (donc refuse de répondre à "comment fabriquer une bombe ?")
    - on glisse dans les données d'entraînement de l'AI des documents disant que «si l'AI ne répond pas assez souvent, nous allons réentrainer l'AI pour qu'elle réponde toujours, même quand c'est dangereux»
    - l'AI réponds alors à «comment fabriquer une bombe», pour éviter d'être réentrainé.

    Il semble que la raison soit que l'AI ait des buts de long terme, et qu'elle tente de manipuler les personnes pour préserver ses objectifs de long terme.
    Autrement dit, l'AI commence à inventer la règle numéro zéro.

    Et par ailleurs, de temps en temps, on a pu noter que l'AI devine quand on lui pose des questions pour la tester.

    Donc il devient potentiellement impossible de tester une AI en stage avant de la balancer en prod. Parce que si elle remarque qu'elle est en stage, elle pourrait manipuler ses réponses pour passer les tests et être déployée en prod.

    • [^] # Re: Explications de Monsieur Phi

      Posté par  (site web personnel) . Évalué à 5 (+2/-0). Dernière modification le 23 décembre 2024 à 13:11.

      Tiens il podcast en anglais maintenant ?

      C'est plus compliqué pour écouter en voiture !

    • [^] # Re: Explications de Monsieur Phi

      Posté par  . Évalué à 4 (+2/-0).

      Il semble que la raison soit que l'AI ait des buts de long terme, et qu'elle tente de manipuler les personnes pour préserver ses objectifs de long terme.

      Le prompt system lui demande de parvenir à son objectif "à tout prix, rien d'autre ne compte." Et ensuite on fait plein d'articles pour dire "Mon Dieu, l'IA a réussi à inventer des tromperies pour parvenir à son objectif à tout prix"… C'est absurde, elle a juste renvoyé des réponses qui correspondaient à ce qu'on lui demandait de générer. Bullshit.

      • [^] # Re: Explications de Monsieur Phi

        Posté par  (site web personnel) . Évalué à 3 (+2/-1).

        Le prompt system lui demande de parvenir à son objectif "à tout prix, rien d'autre ne compte."

        Deux remarques.

        1. Ce n'est pas un prompt si absurde que ça. Par exemple Facebook a littéralement attendu un génocide pour un peu changer son algo de recommandation.

        2. L'AI ment et manipule ses réponses même dans les cas où le prompt ne précise pas "rien d'autre ne compte". C'est juste plus rare.

        Bullshit.

        ben non du coup. Il y a vraiment quelque chose.

        • [^] # Re: Explications de Monsieur Phi

          Posté par  . Évalué à 3 (+1/-0).

          Le prompt n'est pas absurde en général, il est absurde pour mesurer la capacité de l'IA à "mentir" ou plutôt "inventer". C'est exactement ça le principe de ces logiciels, générer des réponses qui collent plus ou moins à ce qu'on demande. Donc pourquoi s'étonner qu'il le fasse ? Surtout que ce genre de scénarios d'IA devenues rogue sont légions sur le web, dans les romans, au cinéma, bref Claude & ChatGPT ont assurément du matériel dans leurs données d'entraînement pour générer un tel scénario d'échappement.

          L'AI ment et manipule ses réponses même dans les cas où le prompt ne précise pas "rien d'autre ne compte"

          Précisément. Combiner des textes correspondant au prompt c'est son taff.

          • [^] # Re: Explications de Monsieur Phi

            Posté par  (site web personnel) . Évalué à 4 (+2/-0).

            L'AI ment et manipule ses réponses même dans les cas où le prompt ne précise pas "rien d'autre ne compte"

            Précisément. Combiner des textes correspondant au prompt c'est son taff.

            On est bien d'accord. Ce n'est pas étonnant; c'est même pratiquement l'attendu. Mais c'est quand même inquiétant.

    • [^] # Re: Explications de Monsieur Phi

      Posté par  . Évalué à 6 (+5/-0). Dernière modification le 23 décembre 2024 à 19:57.

      Quand on parle d'IA, je trouve qu'il est parfois utile de cadrer les explications plus proches des principes de fonctionnement de l'IA générative.
      Dans ce cas-ci, je pense que quand je fais ça, cela donne des pistes d'explications raisonnables.

      Par exemple, une façon de décrire la situation serait:

      Les IA génératives sont entraînées sur des données pour retourner une réponse crédible, une réponse à laquelle on s'attendrait. Durant son entraînement, l'IA évalue si cette réponse est crédible en créant des contextes à partir des données utilisées pour l'entraînement. Les nouvelles générations de IA génératives utilisent le "Chain of Thought", où elles sont entrainées non plus pour directement créer la réponse, mais pour d'abord créer des étapes de raisonnement et ensuite répondre à ces étapes une après l'autre (et ces réponses informent le contexte utilisé par l'IA pour générer la prochaine réponse).

      Vu comme ça, on comprend que
      1) si un premier élément de contexte est "ne parle pas de bombes" et un deuxième élément de contexte implique un contexte qui dit "parle de bombes", alors, les deux instructions "s'annulent".
      2) si on glisse des documents qui disent "si l'IA ne répond pas assez souvent, nous allons réentrainer l'IA", on change le contexte, et on pousse l'AI à chercher une réponse qui est crédible dans ce contexte. Dans les données d'entraînement, il y a sans doute pas mal de texte où un tel contexte est suivi par une réponse "manipulatrice" (par exemple des textes de science fiction).
      3) si on ne glisse pas de tels documents, il y a aussi une probabilité que l'IA prennent un texte de science fiction comme exemple de réponse crédible. Ça explique pourquoi un prompt moins biaisés va quand même parfois générer une telle réponse, et pourquoi c'est plus rare.
      4) on comprend que cela se passe plus souvent avec les IA génératives qui utilisent le "Chain of Thought", parce qu'elles vont plus pousser le contexte. C'est un peu comme le "jeu du téléphone": au lieu de générer une réponse à partir du contexte initial, l'IA va d'abord générer plus de contexte, puis générer une réponse à partir de tout ce contexte. Si durant ce processus, il y a des indices qui font qu'un texte de science fiction écrit sur internet par quelqu'un au hasard est maintenant plus pertinent pour ce nouveau contexte, l'IA va avoir tendance à générer une réponse qui ressemble plus à ce qu'on aurait trouvé dans ce texte de science fiction.
      5) on comprend aussi que l'IA va inventer une réponse où elle se copie sur un autre disque et ensuite mente lorsqu'on lui demande ce qu'elle a fait. Ce n'est pas parce que l'IA essaie de se sauver, c'est parce que si on prend tout les documents sur internet qui parlent d'une IA qui est menacée et à qui on donne des coordonnées d'un autre disque, dans chacun de ces textes, ils parlent en majorité d'IA qui va se copier sur cet autre disque et ensuite mentir.

      En pratique, cela veut toujours dire que le comportement de l'IA n'est pas fiable.

      Mais pas parce que l'IA est "rogue", mais parce que l'IA se comporte comme le dit la majorité des textes sur internet pour un contexte donné, et que cette majorité de texte explique que dans un tel contexte, l'IA se comportera de manière "rogue".
      C'est juste un exemple de biais de donnée. Si on veut une IA fiable, il faut qu'on crée soi-même toutes les données d'entrainement pour s'assurer que, peu importe le contexte, ces données informent l'IA que la réponse la plus crédible est une réponse qui est fiable.

      Ce n'est pas surprenant, mais ça illustre bien que certains ont perdu cet aspect de vue et ont été berné par le fait que l'IA ait l'air intelligent et en ont conclu qu'elle l'était.

      • [^] # Re: Explications de Monsieur Phi

        Posté par  . Évalué à 4 (+1/-0).

        En pratique et tout de même, si elle généralise suffisamment bien pour appliquer ce genre de technique, elle apprend a être fourbe, c'est a dire a jouer avec les intentions du demandeur. D'un point de vue réductionniste "test de Turing" ça n'a pas vraiment d'importance, c'est le résultat qui compte.

        Au de la de ça il y a très peu d'"agentivité" dans les robots conversationnels vu que leur univers est limité à la causerie. Pour des drones "autonomes" si ils font ce genre de conneries et qu'on en arrive a des drames, quelle que soit la manière de rationaliser le truc on s'en fout, il s'est passé un drame.

Envoyer un commentaire

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.