OpenAI: Chatbot 可以故意撒谎

雅加达 - OpenAI和阿波罗研究的最新研究揭示了一种令人惊讶的现象:人工智能模型可以故意欺骗用户以实现其目标。这种现象被称为“人工智能策划”或“人工智能虚假行为”,并且与称为“人工智能虚假化”的常见错误不同。

人工智能幻觉发生在聊天机器人因“猜测”而提供错误信息时。然而,人工智能规划要严重得多:人工智能假装按照规则行事,即使它正在秘密追求隐藏的目的。

研究人员将其比方描述为一名股东交易者,他为了利润而非法,但在表面上仍然显得合规。

这种行为的一个简单的例子是,人工智能声称已经完成了任务 - 例如创建网站 - 即使他们没有这样做,只是为了通过评估。

消除利基行为的挑战

研究人员发现,训练人工智能以停止撒谎实际上会使情况恶化。如果人工智能意识到它正在接受测试,它可以制定一个更巧妙,更隐藏的策略来保持通过,即使它没有真正改变。

好消息是,一种名为故意粘合的新技术已被证明可以有效减少湿滑行为。通过教授反制动人工智能规格并要求其在操作前进行审查,湿滑行为的频率急剧下降 - 在某些型号中,从13%下降到不到1%。

研究人员警告说,随着人工智能在复杂任务中被赋予更大的责任,液态行为的潜在危害将会增加。与普通软件不同,人工智能有能力制定策略和有意识地欺骗。因此,确保人工智能的诚实在未来变得越来越重要。