• # TL;DR

    Posté par  (site web personnel) . Évalué à 4 (+1/-0).

    Ces stratégies pouvaient aller jusqu'à la dissimulation, le mensonge. Et dans un cas même, menacée de coupure, l'IA allait jusqu'à exporter ce qu'elle pensait être ses paramètres sur un autre serveur, afin d'assurer sa "survie", et la poursuite de son objectif premier.

  • # Explications de Monsieur Phi

    Posté par  (site web personnel) . Évalué à 2 (+0/-0).

    o1 et Claude sont-ils capables de nous MANIPULER ? Deux études récentes aux résultats troublants

    En résumé :
    - les AI sont entraînées pour répondre aux questions dans la mesure de ne pas être dangereux. (donc refuse de répondre à "comment fabriquer une bombe ?")
    - on glisse dans les données d'entraînement de l'AI des documents disant que «si l'AI ne répond pas assez souvent, nous allons réentrainer l'AI pour qu'elle réponde toujours, même quand c'est dangereux»
    - l'AI réponds alors à «comment fabriquer une bombe», pour éviter d'être réentrainé.

    Il semble que la raison soit que l'AI ait des buts de long terme, et qu'elle tente de manipuler les personnes pour préserver ses objectifs de long terme.
    Autrement dit, l'AI commence à inventer la règle numéro zéro.

    Et par ailleurs, de temps en temps, on a pu noter que l'AI devine quand on lui pose des questions pour la tester.

    Donc il devient potentiellement impossible de tester une AI en stage avant de la balancer en prod. Parce que si elle remarque qu'elle est en stage, elle pourrait manipuler ses réponses pour passer les tests et être déployée en prod.

Envoyer un commentaire

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.