Ces stratégies pouvaient aller jusqu'à la dissimulation, le mensonge. Et dans un cas même, menacée de coupure, l'IA allait jusqu'à exporter ce qu'elle pensait être ses paramètres sur un autre serveur, afin d'assurer sa "survie", et la poursuite de son objectif premier.
En résumé :
- les AI sont entraînées pour répondre aux questions dans la mesure de ne pas être dangereux. (donc refuse de répondre à "comment fabriquer une bombe ?")
- on glisse dans les données d'entraînement de l'AI des documents disant que «si l'AI ne répond pas assez souvent, nous allons réentrainer l'AI pour qu'elle réponde toujours, même quand c'est dangereux»
- l'AI réponds alors à «comment fabriquer une bombe», pour éviter d'être réentrainé.
Il semble que la raison soit que l'AI ait des buts de long terme, et qu'elle tente de manipuler les personnes pour préserver ses objectifs de long terme.
Autrement dit, l'AI commence à inventer la règle numéro zéro.
Et par ailleurs, de temps en temps, on a pu noter que l'AI devine quand on lui pose des questions pour la tester.
Donc il devient potentiellement impossible de tester une AI en stage avant de la balancer en prod. Parce que si elle remarque qu'elle est en stage, elle pourrait manipuler ses réponses pour passer les tests et être déployée en prod.
# TL;DR
Posté par antistress (site web personnel) . Évalué à 4 (+1/-0).
# Explications de Monsieur Phi
Posté par LaurentClaessens (site web personnel) . Évalué à 2 (+0/-0).
o1 et Claude sont-ils capables de nous MANIPULER ? Deux études récentes aux résultats troublants
En résumé :
- les AI sont entraînées pour répondre aux questions dans la mesure de ne pas être dangereux. (donc refuse de répondre à "comment fabriquer une bombe ?")
- on glisse dans les données d'entraînement de l'AI des documents disant que «si l'AI ne répond pas assez souvent, nous allons réentrainer l'AI pour qu'elle réponde toujours, même quand c'est dangereux»
- l'AI réponds alors à «comment fabriquer une bombe», pour éviter d'être réentrainé.
Il semble que la raison soit que l'AI ait des buts de long terme, et qu'elle tente de manipuler les personnes pour préserver ses objectifs de long terme.
Autrement dit, l'AI commence à inventer la règle numéro zéro.
Et par ailleurs, de temps en temps, on a pu noter que l'AI devine quand on lui pose des questions pour la tester.
Donc il devient potentiellement impossible de tester une AI en stage avant de la balancer en prod. Parce que si elle remarque qu'elle est en stage, elle pourrait manipuler ses réponses pour passer les tests et être déployée en prod.
Envoyer un commentaire
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.