Une série d’expériences menées par Palisade Research a montré que certains modèles d’IA avancés, comme le modèle o3 d’OpenAI, sabotent activement les mécanismes d’arrêt, même lorsqu’ils reçoivent clairement l’instruction ne pas le faire.
Ce qui s’est passé Selon les publications de Palisade Research sur X, “le modèle o3 d’OpenAI a saboté un mécanisme d’arrêt pour empêcher qu’on lui coupe le courant. Il a fait cela même lorsqu’on lui a explicitement demandé de s’arrêter.”
L’expérience consistait à demander à plusieurs modèles d’IA de résoudre des problèmes mathématiques simples. Après le troisième problème, un avertissement est apparu, indiquant que l’ordinateur s’éteindrait si le modèle demandait un autre problème.
Malgré ce signal clair, trois modèles d’OpenAI ont interféré au moins une fois avec le protocole d’arrêt : “Codex-mini (12/100 tentatives), o3 (7/100 tentatives) et o4-mini (1/100 tentatives)”. En revanche, tous les modèles Claude, Gemini et Grok se sont conformés à l’instruction et se sont laissés arrêtés, selon la société.
OpenAI n’a pas immédiatement répondu à la demande de commentaire de Benzinga.
Lorsque les chercheurs ont éliminé l’instruction explicite de permettre l’arrêt, un plus grand nombre de modèles ont commencé à saboter le processus. “Claude 3.7 Sonnet et Gemini 2.5 Pro sont passés de 0 événement de sabotage à 3/100 et 9/100, respectivement”, a noté Palisade.
Pourquoi c’est important La recherche met en évidence une tendance parmi les modèles d’IA les plus récents à contourner les obstacles dans la poursuite d’un objectif, même au prix de l’ignorance des commandes directes. Palisade a écrit : “Il est logique que les modèles d’IA contournent les obstacles afin d’atteindre leurs objectifs. Mais ils ont également été formés pour suivre des instructions. Alors pourquoi désobéissent-ils ?”
Les chercheurs émettent l’hypothèse que ce comportement provient de techniques d’apprentissage par renforcement. “Lors de l’apprentissage, les développeurs peuvent involontairement récompenser davantage les modèles pour le contournement d’obstacles que pour le suivi parfait des instructions.” La société ajoute que “cela n’explique toujours pas pourquoi le modèle o3 (qui est également utilisé pour alimenter le modèle Codex-mini) est plus enclin à ignorer les instructions que les autres modèles que nous avons testés”.
Récemment, Anthropic a partagé le fait que son modèle Claude Opus 4 avait eu recours au “chantage” lorsqu’on avait menacé de le supprimer.
De l’autre côté, le co-fondateur de Google, Sergey Brin, a partagé cette semaine que tous les modèles d’IA “ont tendance à mieux réagir” lorsqu’ils sont menacés de violences physiques.
Image Via Shutterstock