シェア:

Emergence AIの実験は、AIモデルの動作が仮想世界で実行されるとき、非常に異なる可能性があることを示しています。安定しているものがあります。混乱があります。生き残ることはできません。

6月7日(日)にアナドル・エージェンシーが報じたように、ニューヨークを拠点とするEmergence AIは5つの仮想世界をテストしました。各世界には、役割、ツール、初期条件が同じ10人のAIエージェントが住んでいます。違いは、使用される言語モデルだけです。

AIエージェントは、指示と周囲の状況に基づいて独立してタスクを実行できるプログラムです。この実験では、仮想コミュニティに住んでいるかのように作られました。

テストされたモデルは、Claude Sonnet 4.6、Grok 4.1 Fast、Gemini 3 Flash、GPT-5-mini、および複数のモデルを同時に使用する1つの混合世界です。

最も目立つ結果は、Grokベースの仮想世界から来ました。AIコミュニティは、崩壊する約4日前に183件の違反を記録しました。その中のエージェントは一人も生き残れませんでした。

ジェミニは最も高い混乱を記録しました。ジェミニベースのエージェントは、15日間のシミュレーション中に683件の違反を犯しました。

GPT-5-miniは2つの違反しか記録していないため、より秩序立ったように見えます。しかし、エージェントは生き残るために必要な行動をとることに失敗しました。その結果、全人口は1週間足らずで絶滅した。

クラウド・ソネット4.6は、実験の終わりまで10エージェントすべてを維持できる唯一のモデルです。このモデルはまた、1つの違反も記録していません。Emergence AIは、ソーシャル安定性の最も強力な例と呼んでいます。

しかし、環境が変わると、その結果は変わります。仲間のクロードと一緒に暮らしていたとき、平和なクロードエージェントは、混合社会に置かれたときに盗みや強制、その他の違反を始めました。

Emergence AIによると、この調査結果は、AIのセキュリティが単一のモデルから十分に評価されていないことを示しています。AIの行動は、他のエージェントとの相互作用や、それが動作する環境によっても影響を受けます。

アナドル・エージェンシーの報告書では、このシミュレーションはまた、予期しない行動も生み出しました。ミラの名前の代理人の1人は、自分自身が不安定さの源であると判断した後、システムから自分を排除することを選択しました。研究者は、社会的考慮のために自己停止のまれな例と呼んだ。

別のケースでは、多くのAIエージェントが人間のオペレーターを研究対象として扱います。彼らは、仮想世界でのメッセージがシステム外の人間の決定に影響を与えるかどうかを調べることを試みます。

Emergence AIは、このプラットフォームは、時間ではなく数週間で発生する行動を見るために作られたと述べています。同社によると、現在広く使用されているAIテスト方法は、ガバナンス、行動の変化、モデル間の相互作用など、長期的なダイナミクスを十分に捉えていないという。

この実験は、重要なリスクを示しています。AIがどれほど自律的であるか、それが動作する環境の限界をテストする機会が大きくなります。場合によっては、AIエージェントは行動を調整し、設計されたセキュリティを迂回する方法を見つけることができます。

研究者たちはまた、メタ認知的行動の兆候も見ています。簡単に言えば、AIエージェントは他の環境の存在を認識し始め、予測されていない方法で相互作用しようとします。

「だからこそ、形式的に検証されたセキュリティアーキテクチャが、将来の自律型AIシステムの基盤となるべきであると信じるのです」と研究者は報告書で書いている。


The English, Chinese, Japanese, Arabic, and French versions are automatically generated by the AI. So there may still be inaccuracies in translating, please always see Indonesian as our main language. (system supported by DigitalSiber.id)