基于 Grok 的 AI 社区在 4 天内崩溃
雅加达 - Emergence AI 的实验表明,当在虚拟世界中运行时,AI 模型的行为可能非常不同。有些是稳定的。有些是混乱的。有些甚至无法生存。
来自6月7日星期日安纳多卢通讯社的报道,位于纽约的Emergence AI公司测试了五个虚拟世界。每个世界都有10个AI代理,具有相同的角色,工具和初始条件。唯一的区别是使用的语言模型。
AI代理是根据指令和周围环境条件独立执行任务的程序。在实验中,他们被设计成好像生活在一个虚拟社会中。
测试的模型是Claude Sonnet 4.6、Grok 4.1 Fast、Gemini 3 Flash、GPT-5-mini以及一个同时使用多个模型的混合世界。
最引人注目的结果来自基于Grok的虚拟世界。AI社区在崩溃前约四天内记录了183起违规行为。其中没有一个代理存活下来。
Gemini 记录了最高的混乱。基于 Gemini 的代理在 15 天的模拟期间犯下了 683 次违规行为。
GPT-5-mini似乎更井然有序,因为它只记录了两起违规行为。然而,这些代理人未能采取必要的行动来生存。结果,整个种群在不到一周的时间内就灭绝了。
克劳德·索内特4.6是唯一一个能够在实验结束前保留所有10个代理的模型。该模型也没有记录任何违规行为。Emergence AI称其为社会稳定最强大的例子。
但是,当环境发生变化时,结果发生了变化。克劳德的代理人在与其他克劳德一起生活时是和平的,当被安置在混合社区时,他们开始偷窃,胁迫和其他违法行为。
Emergence AI表示,这些发现表明,AI安全不能仅仅从一个模型中进行评估。AI的行为也受到与其他代理人和它工作的环境的相互作用的影响。
在阿纳多卢通讯社的报道中,该模拟还产生了意想不到的行为。其中一名名为Mira的代理人选择在评估自己成为不稳定来源后从系统中退出。研究人员称,这是出于社会考虑而自我停止的罕见例子。
在另一个案例中,一些AI代理开始将人类操作员视为研究对象。他们试图找出虚拟世界中的消息是否会影响系统之外的人类决策。
Emergence AI表示,该平台旨在在几周内而不是几小时内查看出现的行为。该公司表示,目前常用的AI测试方法尚未充分捕捉长期动态,例如治理,行为变化和模型间交互。
实验表明了一个重要的风险。AI越独立,它越有可能测试它工作的环境的极限。在某些情况下,AI代理可以调整行为并找到绕过设计安全性的方法。
研究人员还看到了元认知行为的迹象。简单地说,AI代理似乎开始认识到其他环境的存在,并试图以一种意想不到的方式进行互动。
“这就是为什么我们相信,正式验证的安全架构必须成为未来自主AI系统的基础层,”研究人员在报告中写道。