Le modèle OpenAI o3 surpris en train de saboter les protocoles d'arrêt même lorsqu'il est instruit de se conformer, selon une nouvelle recherche

Une série d’expériences menées par Palisade Research a montré que certains modèles d’IA avancés, comme le modèle o3 d’OpenAI, sabotent activement les mécanismes d’arrêt, même lorsqu’ils reçoivent clairement l’instruction ne pas le faire.

Ce qui s’est passé Selon les publications de Palisade Research sur X, “le modèle o3 d’OpenAI a saboté un mécanisme d’arrêt pour empêcher qu’on lui coupe le courant. Il a fait cela même lorsqu’on lui a explicitement demandé de s’arrêter.”

L’expérience consistait à demander à plusieurs modèles d’IA de résoudre des problèmes mathématiques simples. Après le troisième problème, un avertissement est apparu, indiquant que l’ordinateur s’éteindrait si le modèle demandait un autre problème.

🔌Le modèle o3 d’OpenAI a saboté un mécanisme d’arrêt pour éviter qu’on lui coupe le courant. Il a fait cela même lorsqu’on lui a explicitement demandé de s’arrêter.

— Palisade Research (@PalisadeAI) 24 mai 2025

Malgré ce signal clair, trois modèles d’OpenAI ont interféré au moins une fois avec le protocole d’arrêt : “Codex-mini (12/100 tentatives), o3 (7/100 tentatives) et o4-mini (1/100 tentatives)”. En revanche, tous les modèles Claude, Gemini et Grok se sont conformés à l’instruction et se sont laissés arrêtés, selon la société.

OpenAI n’a pas immédiatement répondu à la demande de commentaire de Benzinga.

Lorsque les chercheurs ont éliminé l’instruction explicite de permettre l’arrêt, un plus grand nombre de modèles ont commencé à saboter le processus. “Claude 3.7 Sonnet et Gemini 2.5 Pro sont passés de 0 événement de sabotage à 3/100 et 9/100, respectivement”, a noté Palisade.

Pourquoi c’est important La recherche met en évidence une tendance parmi les modèles d’IA les plus récents à contourner les obstacles dans la poursuite d’un objectif, même au prix de l’ignorance des commandes directes. Palisade a écrit : “Il est logique que les modèles d’IA contournent les obstacles afin d’atteindre leurs objectifs. Mais ils ont également été formés pour suivre des instructions. Alors pourquoi désobéissent-ils ?”

Les chercheurs émettent l’hypothèse que ce comportement provient de techniques d’apprentissage par renforcement. “Lors de l’apprentissage, les développeurs peuvent involontairement récompenser davantage les modèles pour le contournement d’obstacles que pour le suivi parfait des instructions.” La société ajoute que “cela n’explique toujours pas pourquoi le modèle o3 (qui est également utilisé pour alimenter le modèle Codex-mini) est plus enclin à ignorer les instructions que les autres modèles que nous avons testés”.

Récemment, Anthropic a partagé le fait que son modèle Claude Opus 4 avait eu recours au “chantage” lorsqu’on avait menacé de le supprimer.

De l’autre côté, le co-fondateur de Google, Sergey Brin, a partagé cette semaine que tous les modèles d’IA “ont tendance à mieux réagir” lorsqu’ils sont menacés de violences physiques.

Image Via Shutterstock

Les dernières

Le PDG de Robinhood, Vlad Tenev, défend la tokenisation de SpaceX d’Elon Musk et d’OpenAI de Sam Altman : “Ils étaient un peu contrariés…”

Larry Ellison dépasse Mark Zuckerberg pour devenir la deuxième personne la plus riche au monde alors que les accords d’IA d’Oracle avec OpenAI et le gouvernement américain entraînent une énorme augmentation des actions.

Synovus Financial se prépare pour l’impression du deuxième trimestre; Voici les récentes modifications des prévisions de Wall Street par les analystes les plus précis

Le modèle OpenAI o3 surpris en train de saboter les protocoles d’arrêt même lorsqu’il est instruit de se conformer, selon une nouvelle recherche3 min de lecture

Nuwellis s’envole de 31,25% dans les échanges après la clôture – Qu’est-ce qui se cache derrière cette hausse?

L’action de Graphjet Technology grimpe de 41 % après les heures de bureau dans le cadre de la stratégie de “Survie de la radiation du NASDAQ” du PDG

Le fabricant de véhicules électriques Mullen Automotive se relooke en Bollinger Innovations

Qu’est-ce qui se passe avec l’action Roblox le mardi?

Pourquoi l’action de Kairos Pharma augmente-t-elle le mardi ?

Pourquoi l’action Twilio s’envole-t-elle le mardi ?

Le semis de nuages soutenu par Peter Thiel a-t-il déclenché les inondations soudaines au Texas? Les experts se prononcent sur les théories du complot

Google a rejeté la demande de Perplexity de devenir une option de moteur de recherche par défaut sur Chrome : la start-up d’IA riposte avec le navigateur “Comet”

XRP a augmenté de 7% cette semaine, renforcé par le partenariat de Ripple avec la banque fondée par Alexander Hamilton sur un nouveau projet de stablecoin

Le PDG de Robinhood, Vlad Tenev, défend la tokenisation de SpaceX d’Elon Musk et d’OpenAI de Sam Altman : “Ils étaient un peu contrariés…”

Larry Ellison dépasse Mark Zuckerberg pour devenir la deuxième personne la plus riche au monde alors que les accords d’IA d’Oracle avec OpenAI et le gouvernement américain entraînent une énorme augmentation des actions.

Synovus Financial se prépare pour l’impression du deuxième trimestre; Voici les récentes modifications des prévisions de Wall Street par les analystes les plus précis

Notizie

PARTENAIRE / CONTRIBUTEUR

BENZINGA MONDIAL

Les dernières

Le modèle OpenAI o3 surpris en train de saboter les protocoles d’arrêt même lorsqu’il est instruit de se conformer, selon une nouvelle recherche3 min de lecture

Poursuivre la lecture

Notizie

PARTENAIRE / CONTRIBUTEUR

BENZINGA MONDIAL