Emergence AI의 실험은 AI 모델의 행동이 가상 세계에서 실행되면 매우 다를 수 있음을 보여줍니다. 안정적입니다. 혼란스럽다. 살아남을 수 없다.
6월 7일 일요일 안도라 기자단의 보고서에서 뉴욕에 본사를 둔 에머전스 AI 회사는 5개의 가상 세계를 테스트했습니다. 각 세계는 10명의 AI 에이전트가 같은 역할, 도구 및 초기 조건으로 구성되어 있습니다. 차이점은 사용되는 언어 모델에 있습니다.
AI 에이전트는 지시와 주변 조건에 따라 독립적으로 작업을 수행 할 수있는 프로그램입니다. 이 실험에서는 가상 사회에서 살고있는 것처럼 만들어졌습니다.
테스트 모델은 클로드 소넷 4.6, 그록 4.1 패스트, 제미니 3 플래시, GPT-5-미니, 그리고 여러 모델을 동시에 사용하는 하나의 혼합 세계입니다.
가장 눈에 띄는 결과는 Grok 기반의 가상 세계에서 나왔습니다. AI 커뮤니티는 붕괴되기 전 약 4일 동안 183건의 위반 사례를 기록했습니다. 그 중 아무도 살아남지 못했습니다.
쌍둥이는 가장 많은 혼란을 기록했습니다. 쌍둥이 기반 에이전트는 시뮬레이션 된 15 일 동안 683 건의 위반을 저지했습니다.
GPT-5-mini는 단지 두 가지 위반만 기록했기 때문에 더 규칙적으로 보였습니다. 그러나 요원들은 생존에 필요한 조치를 취하지 못했습니다. 그 결과, 전체 개체군은 1 주일도 채 되지 않아 멸종되었습니다.
클로드 소넷 4.6은 실험이 끝날 때까지 모든 10 대리인을 유지할 수있는 유일한 모델입니다. 이 모델은 또한 어떠한 위반도 기록하지 않습니다. Emergence AI는 이것을 사회적 안정성의 가장 강력한 예라고 부릅니다.
그러나 환경이 바뀌면 결과가 바뀝니다. 동료 클로드와 함께 살 때 평화로운 클로드 에이전트는 혼합 사회에 배치되면 도둑질, 강제 및 기타 위반을 시작합니다.
Emergence AI에 따르면 이번 연구 결과는 AI 보안이 단일 모델에서 충분히 평가되지 않았음을 보여줍니다. AI 행동은 또한 다른 에이전트와의 상호 작용 및 작동하는 환경에 의해 영향을 받습니다.
안도라 기자단의 보고서에서 이 시뮬레이션은 예상치 못한 행동도 보여주었습니다. 미라라는 이름의 한 요원은 자신이 불안정성의 원인이라고 평가한 후 시스템에서 자신을 제거하는 것을 선택했습니다. 연구자들은 이것을 사회적 고려 사항으로 인한 셀프 포기의 희귀한 예라고 불렀습니다.
다른 경우에는 일부 AI 에이전트가 인간 운영자를 연구 대상으로 대하기 시작했습니다. 그들은 가상 세계의 메시지가 시스템 외부의 인간의 결정에 어떤 영향을 미칠 수 있는지 알아 내려고 노력합니다.
Emergence AI는이 플랫폼이 몇 주 안에 나타나는 행동을 볼 수 있도록 만들어졌으며, 단지 시간이 아닙니다. 회사에 따르면, 현재 일반적으로 사용되는 AI 테스트 방법은 관리, 행동 변화 및 모델 간 상호 작용과 같은 장기적 역동성을 충분히 포착하지 못했습니다.
이 실험은 중요한 위험을 보여줍니다. AI가 자립적일수록, 그가 일하는 환경의 한계를 테스트 할 기회가 커집니다. 어떤 경우에는, AI 에이전트는 행동을 조정하고 설계된 보안을 우회하는 방법을 찾을 수 있습니다.
연구원들은 또한 메타인지 행동의 징후를 보았습니다. 간단히 말해, AI 에이전트는 다른 환경의 존재를 인식하기 시작하고 예상치 못한 방식으로 상호 작용하려고합니다.
"그것이 우리가 형식적으로 검증 된 보안 아키텍처가 미래의 자율 AI 시스템의 기본 계층이어야한다고 믿는 이유입니다." 연구원들은 보고서에서 썼습니다.
The English, Chinese, Japanese, Arabic, and French versions are automatically generated by the AI. So there may still be inaccuracies in translating, please always see Indonesian as our main language. (system supported by DigitalSiber.id)