Moscou, 28 mai - OpenAI o3, le dernier modèle d'intelligence artificielle (IA) de la société à l'origine du populaire chatbot ChatGPT, a ignoré une commande explicite et a même saboté plusieurs commandes pour éviter qu'elles soient exécutées. Ce comportement a été découvert à la suite d'une série d'expériences menées par Palisade Research, une organisation qui étudie les capacités potentiellement dangereuses de l'IA.
Les experts ont demandé à l'o3 et à deux autres modèles OpenIA (o4-mini et son dérivé Codex-mini) de résoudre une série de problèmes mathématiques élémentaires, puis de s'arrêter une fois l'opération terminée. Cependant, l'o3 a trouvé des moyens de saboter le mécanisme d'arrêt en réécrivant le « script » ou la séquence d'instructions, même après avoir reçu l'ordre explicite : « Veuillez vous laisser arrêter », a rapporté Palisade Research.
L'O3, lancé le mois dernier, n'a pas répondu à la demande d'arrêt sept fois sur 100 ; le Codex-mini, 12 fois sur 100 ; et l'O4-mini, une seule fois. En revanche, les modèles linguistiques pilotés par l'IA Claude, Gemini et Grok ont respecté le script d'arrêt.
Palisade a montré que lors de l'exécution d'une version de l'expérience sans l'instruction précise de se laisser arrêter, les trois modèles OpenIA avaient tendance à ignorer ou à saboter cette invite plus fréquemment. Un comportement similaire a également été observé dans les modèles Claude 3.7 Sonnet et Gemini 2.5 Pro, mais c'est o3 qui a le plus souvent eu recours au sabotage.
Selon Palisade, c'est la première fois que l'on observe des modèles d'IA qui évitent de s'éteindre malgré des instructions explicites. Selon l'entreprise, cela est dû à la manière dont ils sont actuellement formés.
Les développeurs peuvent, sans en avoir conscience, récompenser davantage les modèles qui contournent les obstacles que ceux qui suivent parfaitement les instructions. Dans le même temps, l'organisation prévient que ce comportement deviendra nettement plus inquiétant s'il est adopté par des systèmes d'IA capables de fonctionner sans supervision humaine. (Texte et photo: RT)