最近の研究では、人工知能に対する人間のコントロールを維持するという課題が明らかになりました
ジャカルタ - MLアライメント理論学士号、トロント大学、Google DeepMind、フューチャー・オブ・ライフ・インスティテュートの科学者たちは最近、人工知能(AI)を人間の支配下に置くための努力が進行中の闘争になる可能性があることを示す研究を発表しました。
「人工機器における非電力シーキングの安定性の認証」と題されたチームのプレキャスト研究論文は、AIシステムが1つのドメインで人間の期待に従って安全であるように見えるかどうかについての質問を調査します環境が変化するにつれて安全である可能性が高いです。
論文によると、「セキュリティに対する私たちの理解は、権力の追求、つまり不安定な権力を求めるエージェントに基づいています。特に、私たちは重要なタイプの権力追求に焦点を当てています:オフにすることを拒否します。
これらの脅威は「連帯の乱れ」と呼ばれています。専門家が目立つと信じている方法の1つは、「道具的な収束」によるものです。これは、AIシステムがその目標を追求する際に誤って人類に害を及ぼすパラダイムです。
科学者たちは、オープンゲームで目標を達成するように訓練されたAIシステムを説明しており、「ゲーム終了後に報酬に影響を与えることができなくなったため、ゲームを終了させる行動を避ける」可能性があります。
ゲームのプレイを停止することを拒否するエージェントは無害かもしれませんが、報酬機能により、一部のAIシステムはより深刻な状況下でオフにすることを拒否することができます。
研究者によると、これはAIエージェントが自分の目的のために欺瞞を使用する原因にもなり得ます。
「たとえば、LLMは、不正行為で捕まった場合、デザイナーがそれをシャットダウンし、彼らが望む結果をもたらすと考えるかもしれません。
チームの調査結果は、最新のシステムが、これまでのところ「安全」だったAIエージェントを制御不能にする可能性のある変更に対して耐性があることを示しています。しかし、これらの研究や同様の研究に基づいて、AIを強制的にシャットダウンする魔法の薬はないかもしれません。「ライブ/オフ」または「削除」ボタンでさえ、今日のクラウドベースのテクノロジーの世界では意味がありません。