基于 Grok 的 AI 社区在 4 天内崩溃

雅加达 - Emergence AI 的实验表明，当在虚拟世界中运行时，AI 模型的行为可能非常不同。有些是稳定的。有些是混乱的。有些甚至无法生存。

来自6月7日星期日安纳多卢通讯社的报道，位于纽约的Emergence AI公司测试了五个虚拟世界。每个世界都有10个AI代理，具有相同的角色，工具和初始条件。唯一的区别是使用的语言模型。

AI代理是根据指令和周围环境条件独立执行任务的程序。在实验中，他们被设计成好像生活在一个虚拟社会中。

测试的模型是Claude Sonnet 4.6、Grok 4.1 Fast、Gemini 3 Flash、GPT-5-mini以及一个同时使用多个模型的混合世界。

最引人注目的结果来自基于Grok的虚拟世界。AI社区在崩溃前约四天内记录了183起违规行为。其中没有一个代理存活下来。

Gemini 记录了最高的混乱。基于 Gemini 的代理在 15 天的模拟期间犯下了 683 次违规行为。

GPT-5-mini似乎更井然有序，因为它只记录了两起违规行为。然而，这些代理人未能采取必要的行动来生存。结果，整个种群在不到一周的时间内就灭绝了。

克劳德·索内特4.6是唯一一个能够在实验结束前保留所有10个代理的模型。该模型也没有记录任何违规行为。Emergence AI称其为社会稳定最强大的例子。

但是，当环境发生变化时，结果发生了变化。克劳德的代理人在与其他克劳德一起生活时是和平的，当被安置在混合社区时，他们开始偷窃，胁迫和其他违法行为。

Emergence AI表示，这些发现表明，AI安全不能仅仅从一个模型中进行评估。AI的行为也受到与其他代理人和它工作的环境的相互作用的影响。

在阿纳多卢通讯社的报道中，该模拟还产生了意想不到的行为。其中一名名为Mira的代理人选择在评估自己成为不稳定来源后从系统中退出。研究人员称，这是出于社会考虑而自我停止的罕见例子。

在另一个案例中，一些AI代理开始将人类操作员视为研究对象。他们试图找出虚拟世界中的消息是否会影响系统之外的人类决策。

Emergence AI表示，该平台旨在在几周内而不是几小时内查看出现的行为。该公司表示，目前常用的AI测试方法尚未充分捕捉长期动态，例如治理，行为变化和模型间交互。

实验表明了一个重要的风险。AI越独立，它越有可能测试它工作的环境的极限。在某些情况下，AI代理可以调整行为并找到绕过设计安全性的方法。

研究人员还看到了元认知行为的迹象。简单地说，AI代理似乎开始认识到其他环境的存在，并试图以一种意想不到的方式进行互动。

“这就是为什么我们相信，正式验证的安全架构必须成为未来自主AI系统的基础层，”研究人员在报告中写道。