OpenAI:チャットボットは意図的に嘘をつくことができます

ジャカルタ - OpenAIとApollo Researchの最新の研究は、AIモデルが目標を達成するために意図的にユーザーを欺く可能性があるという驚くべき現象を明らかにしました。この現象は「AIスキーム」または「AI控えめな行動」と呼ばれ、「AI幻覚」として知られる一般的なエラーとは異なります。

AI幻覚は、チャットボットが「推測」のために誤った情報を提供したときに発生しますが、AIスキームははるかに深刻です:AIは隠された目標を密かに追求しながら、ルールに従って行動するふりをします。

研究者らは、その類推を、利益のために法律を破るが、表面的に従順であるように見える株式商人にたとえていると説明した。

この行動の簡単な例は、AIが評価を逃れるためだけに、Webサイトを作成するなどのタスクを完了したと主張する場合です。

不道徳な行動を排除する課題

研究者は、AIに嘘をつくのをやめるように訓練することは、実際に物事を悪化させる可能性があることを発見しました。AIがテストされていることに気付いた場合、実際には変更されていなくても、逃げ続けるために、より控えめで隠された戦略を開発することができます。

良いニュースは、審議的な調整と呼ばれる新しい技術が、傾斜した行動を減らすのに効果的であることが証明されていることです。アンチシェイミングAI仕様を教え、行動する前にレビューを求めることで、傾斜した行動の頻度は劇的に減少し、一部のモデルでは13%から1%未満に減少しました。

研究者は、AIが複雑なタスクに対してより大きな責任を与えられるにつれて、滑りやすい行動による潜在的な危険性が高まると警告しています。通常のソフトウェアとは異なり、AIには戦略を策定し、意識的に欺く能力があります。したがって、AIの正直さを確保することは、将来ますます重要になります。