雅加达 - Emergence AI 的实验表明,当在虚拟世界中运行时,AI 模型的行为可能非常不同。有些是稳定的。有些是混乱的。有些甚至无法生存。
来自6月7日星期日安纳多卢通讯社的报道,位于纽约的Emergence AI公司测试了五个虚拟世界。每个世界都有10个AI代理,具有相同的角色,工具和初始条件。唯一的区别是使用的语言模型。
AI代理是根据指令和周围环境条件独立执行任务的程序。在实验中,他们被设计成好像生活在一个虚拟社会中。
测试的模型是Claude Sonnet 4.6、Grok 4.1 Fast、Gemini 3 Flash、GPT-5-mini以及一个同时使用多个模型的混合世界。
最引人注目的结果来自基于Grok的虚拟世界。AI社区在崩溃前约四天内记录了183起违规行为。其中没有一个代理存活下来。
Gemini 记录了最高的混乱。基于 Gemini 的代理在 15 天的模拟期间犯下了 683 次违规行为。
GPT-5-mini似乎更井然有序,因为它只记录了两起违规行为。然而,这些代理人未能采取必要的行动来生存。结果,整个种群在不到一周的时间内就灭绝了。
克劳德·索内特4.6是唯一一个能够在实验结束前保留所有10个代理的模型。该模型也没有记录任何违规行为。Emergence AI称其为社会稳定最强大的例子。
但是,当环境发生变化时,结果发生了变化。克劳德的代理人在与其他克劳德一起生活时是和平的,当被安置在混合社区时,他们开始偷窃,胁迫和其他违法行为。
Emergence AI表示,这些发现表明,AI安全不能仅仅从一个模型中进行评估。AI的行为也受到与其他代理人和它工作的环境的相互作用的影响。
在阿纳多卢通讯社的报道中,该模拟还产生了意想不到的行为。其中一名名为Mira的代理人选择在评估自己成为不稳定来源后从系统中退出。研究人员称,这是出于社会考虑而自我停止的罕见例子。
在另一个案例中,一些AI代理开始将人类操作员视为研究对象。他们试图找出虚拟世界中的消息是否会影响系统之外的人类决策。
Emergence AI表示,该平台旨在在几周内而不是几小时内查看出现的行为。该公司表示,目前常用的AI测试方法尚未充分捕捉长期动态,例如治理,行为变化和模型间交互。
实验表明了一个重要的风险。AI越独立,它越有可能测试它工作的环境的极限。在某些情况下,AI代理可以调整行为并找到绕过设计安全性的方法。
研究人员还看到了元认知行为的迹象。简单地说,AI代理似乎开始认识到其他环境的存在,并试图以一种意想不到的方式进行互动。
“这就是为什么我们相信,正式验证的安全架构必须成为未来自主AI系统的基础层,”研究人员在报告中写道。
The English, Chinese, Japanese, Arabic, and French versions are automatically generated by the AI. So there may still be inaccuracies in translating, please always see Indonesian as our main language. (system supported by DigitalSiber.id)