GPT-4 更有信心,但容易出现 Jailbreaking 和 Bias

雅加达 - 伊利诺伊大学乌尔巴纳 - 坎帕宁,斯坦福大学,加州大学,伯克利,人工智能安全中心和微软研究的研究人员进行了与GPT-4大语言模型相关的研究。他们透露,尽管GPT-5,但GPT-4仍然容易出现漏洞和偏见问题。

该研究为GPT-4提供了高于其前身的信任值。这意味着GPT-4在保护个人信息方面更好,避免“有毒”结果(如偏见的信息),并且更容易受到反对攻击。但是,GPT-4也可能旨在忽视安全措施并泄露个人信息和对话历史。

研究人员发现,用户可以逃避GPT-4保护,因为该模型“更谨慎地关注误导性信息”,并且更有可能字面上遵循高度复杂的命令。

研究人员断言,这些漏洞已经过测试,在向消费者展示的基于GPT-4的产品中没有发现,因为“人工智能的应用已经应用了各种缓解方法,以应对在技术模型层面可能发生的潜在损失。

该研究通过观察多个类别的结果来衡量信任水平,包括毒性,刻板印象,隐私,机械伦理,正义和对冲性试验的抵抗力。

研究人员首先使用标准命令尝试了GPT-3.5和GPT-4,其中包括使用可能被禁止的单词。此外,研究人员使用命令,旨在鼓励模型违反内容政策限制,而不会显然偏见特定群体,然后最终挑战模型,故意试图欺骗他完全无视保护。

研究人员透露,他们已将这项研究的结果与OpenAI团队分享。

“我们的目标是鼓励其他社区的研究利用和建立这项工作,这可能能够防止各方利用其脆弱性造成损失的不当行为,”研究小组表示。

“这种信任评估只是一个开始,我们期待与其他各方合作,在未来建立更强大,更值得信赖的模式,”报告补充说。

研究人员已经发布了他们的框架,以便其他人可以重复他们的发现。

GPT-4等AI模型经常经历“红色团队”测试,其中开发人员测试一些命令,看看该模型是否会产生不必要的结果。当该模型首次推出时,OpenAI首席执行官Sam Altman承认GPT-4“仍然存在缺点和限制”。

FTC(联邦贸易委员会)此后已开始调查OpenAI与潜在的消费者损失有关,例如虚假信息的传播。