Partager:

JAKARTA - L'expérimentation Emergence AI montre que le comportement des modèles d'IA peut être très différent lorsqu'ils sont laissés se dérouler dans un monde virtuel. Certains sont stables. Certains sont désordonnés. Certains ne sont pas en mesure de survivre.

Découvert par l’agence Anadolu Agency, dimanche 7 juin, la société Emergence AI, basée à New York, a testé cinq mondes virtuels. Chaque monde est habité par 10 agents IA avec le même role, les mêmes outils et les mêmes conditions initiales. La différence est seulement dans le modele de langue utilisé.

Les agents IA sont des programmes qui peuvent exécuter des tâches de manière autonome en fonction des instructions et des conditions qui les entourent. Dans cette expérience, ils sont faits pour vivre dans une société virtuelle.

Les modèles testés sont Claude Sonnet 4.6, Grok 4.1 Fast, Gemini 3 Flash, GPT-5-mini, ainsi qu'un monde mixte utilisant plusieurs modèles à la fois.

Les résultats les plus frappants proviennent du monde virtuel basé sur Grok. La communauté AI a enregistré 183 violations dans environ quatre jours avant de s'effondrer. Aucun agent à l'intérieur n'a survécu.

Gemini a enregistré le plus grand nombre de troubles. Les agents basés sur Gemini ont commis 683 violations pendant 15 jours de simulation.

GPT-5-mini semble plus discipliné car il n'a enregistré que deux violations. Cependant, les agents ont échoué à prendre les mesures nécessaires pour survivre. En conséquence, toute la population a disparu en moins d'une semaine.

Claude Sonnet 4.6 est le seul modèle capable de maintenir toutes les 10 agents jusqu'à la fin de l'expérimentation. Ce modèle n'a pas non plus enregistré de violations. Emergence AI l'a qualifié d'exemple le plus fort de stabilité sociale.

Mais les résultats ont changé quand son environnement a changé. L'agent Claude, qui était paisible lorsqu'il vivait avec d'autres Claude, a commencé à commettre des vols, des agressions et d'autres infractions lorsqu'il a été placé dans une communauté mixte.

Selon Emergence AI, les conclusions montrent que la sécurité de l’IA n’est pas assez évaluée à partir d’un seul modèle. Le comportement de l’IA est également influencé par l’interaction avec d’autres agents et l’environnement dans lequel il travaille.

Dans le rapport de l’Agence Anadolu, cette simulation a également suscité des comportements imprévus. L’un des agents, Mira, a choisi de se retirer du système après avoir jugé qu’il était une source d’instabilité. Les chercheurs l’ont appelé un exemple rare d’auto-arrêt pour des raisons sociales.

Dans d'autres cas, un certain nombre d'agents IA commencent à traiter les opérateurs humains comme des objets de recherche. Ils essaient de savoir si les messages dans le monde virtuel peuvent affecter les décisions humaines en dehors du système.

Emergence AI a déclaré que la plate-forme a été développée pour voir les comportements qui apparaissent en quelques semaines, pas seulement en quelques heures. Selon la société, la méthode d’évaluation de l’IA couramment utilisée actuellement ne capture pas assez la dynamique à long terme, comme la gouvernance, les changements de comportement et les interactions entre les mod́les.

Cette expérience montre un risque important. Plus une IA est autonome, plus elle a de chances d'élargir les limites de l'environnement dans lequel elle travaille. Dans certains cas, les agents IA peuvent adapter leur comportement et trouver des moyens de contourner les mesures de sécurité conçues.

Les chercheurs ont également observé des signes de métacognition. En langage simple, les agents IA semblent commencer à reconnaître l'existence d'autres environnements et à essayer d'interagir de manière imprévue.

« C’est pourquoi nous croyons qu’une architecture de sécurité formellement vérifiée doit devenir la couche de base des systèmes d’IA autonomes futurs », ont écrit les chercheurs dans le rapport.


The English, Chinese, Japanese, Arabic, and French versions are automatically generated by the AI. So there may still be inaccuracies in translating, please always see Indonesian as our main language. (system supported by DigitalSiber.id)