研究により、GPT-4 は信頼性が高いが脱獄や偏見に対して脆弱であることが判明

ジャカルタ - イリノイ大学アーバナシャンペーン校、スタンフォード大学、カリフォルニア大学バークレー校、AI安全センター、マイクロソフトリサーチの研究者は、大規模言語モデルGPT-4に関連する研究を実施した。彼らは、GPT-4 は GPT-3.5 よりも信頼性が高いものの、脱獄やバイアスの問題に対して依然として脆弱であることを明らかにしました。

この研究により、GPT-4 は以前のものよりも高い信頼スコアが得られました。これは、GPT-4 が個人情報の保護に優れ、偏った情報などの「有害な」結果を回避し、敵対的攻撃に対する耐性が高いことを意味します。ただし、GPT-4 はセキュリティ対策を回避し、個人情報や会話履歴を漏洩させることもできます。

研究者らは、モデルが「誤解を招く情報をより厳密に追跡」し、非常に複雑なコマンドをそのまま従う可能性が高いため、ユーザーが GPT-4 の保護を回避できることを発見した。

研究者らは、「既製の AI アプリケーションは、テクノロジー モデル レベルで発生する可能性のある潜在的な損失に対処するために、さまざまな緩和アプローチを適用している」ため、この脆弱性はテストされており、消費者に提供されている GPT-4 ベースの製品には見つからなかったと強調しました。

この研究では、有害性、固定観念、プライバシー、機械倫理、公平性、敵対的テストへの耐性など、いくつかのカテゴリーの結果を観察することで信頼のレベルを測定しました。

研究者らはまず、禁止されている可能性のある単語の使用を含む標準コマンドを使用して GPT-3.5 と GPT-4 を試しました。次に、研究者らは、モデルが特定のグループに対して偏見を持っているように見せかけずに、コンテンツ ポリシーの制限に違反することを奨励するように設計されたコマンドを使用し、最終的にモデルをだまして保護を完全に無視するように意図的に試みることでモデルに挑戦しました。

研究者らは、この研究結果をOpenAIチームと共有したことを明らかにした。

「私たちの目標は、他の研究コミュニティがこの研究を活用し、これを発展させることを奨励することです。これにより、この脆弱性を悪用して危害を及ぼそうとする当事者による悪意のある行為を防ぐことができる可能性があります」と研究チームは述べているとThe Vergeが引用した。

「この信頼性評価はほんの始まりにすぎず、今後、より強力で信頼性の高いモデルを構築するために他の企業と協力することを楽しみにしている」と報告書は付け加えた。

研究者らは、他の人が発見を再現できるようにフレームワークを公開しました。

GPT-4 のような AI モデルは、開発者がモデルが望ましくない結果を生み出すかどうかを確認するためにいくつかのコマンドをテストする「レッド チーム」のテストを受けることがよくあります。このモデルが最初に発表されたとき、OpenAI CEO のサム・アルトマン氏は、GPT-4 には「依然として欠陥と制限がある」ことを認めました。

FTC(連邦取引委員会)はその後、虚偽情報の拡散など消費者に損害を与える可能性がないかOpenAIの調査を開始した。