人类学的AI模型克劳德(Claude)能够阻止危险对话

雅加达 - 人类版为Claude Opus 4和4.1推出了新功能。人工智能(AI)模型现在可以结束导致危险或粗略内容的对话。

该公司表示,导致极端病例的互动很少发生,但仍需要避免。作为其用户的一种高级别保护形式,Anthropic故意开发了此功能。

“我们仍然对克劳德和其他LLM的潜在道德地位不确定,无论是现在还是将来。

“然而,我们正在认真对待这个问题,”Anthropic在2025年8月18日星期一援引的一份声明中解释说。

人类学说,这个新功能是低成本开发的。Claude的最新模型可以通过结束或退出交互来干预对话,如果系统识别潜在的危险性。

克劳德·奥普斯4号的实施前测试中,人工智能模型对恶意内容表现出强烈的不满。例如,人工智能模型将停止回应导致儿童性内容或恐怖计划的不当请求。

克劳德决定终止对话时,用户将无法再次发送消息。但是,这不会影响其帐户上的其他对话。用户仍然可以启动新聊天。

要解决重要对话的潜在损失问题,用户可以重复尝试以前的消息。提供此疏远使用户可以继续进行无害重要讨论。