アンスロピックのAIクルーズモデルは危険な会話を止めることができます

ジャカルタ - アントロピックはクロードオプス4と4.1の新しい機能を開始します。人工知能(AI)モデルは、有害または虐待的なコンテンツにつながる会話を終わらせることができるようになりました。

同社は、極端な症例につながる相互作用はまれであるが、これはまだ避ける必要があると述べている。ユーザーのための高度な保護の一形態として、Anthropicは意図的にこの機能を開発しました。

「クロードや他のLLMの道徳的地位が、現在も将来も潜在的になる可能性について、私たちはまだ非常に確信が持てません。

「しかし、私たちはこの問題を真剣に受け止めています」と、アンソロピックは2025年8月18日月曜日に引用された声明で説明しました。

Anthropicによると、この新機能は低コストで開発されたという。クロードの最新のモデルは、システムが有害な可能性を識別した場合、相互作用を終了または終了することによって会話に介入することができます。

クロードオプス4の試験用試験中、AIモデルは有害なコンテンツに対する強い消極性を示しました。たとえば、AIモデルは、子供の性的コンテンツやテロ計画につながる不適切な要求への対応を停止します。

クロードが会話を終了することを決定した場合、ユーザーはメッセージを返信できません。ただし、これは彼らのアカウント上の他の会話には影響しません。ユーザーはまだ新しいチャットを開始できます。

重要な会話の潜在的な損失に対処するために、ユーザーは以前のメッセージを再試行することができます。この余裕は、ユーザーが無害な重要な議論を続けることができるように与えられます。