雅加达 - 伊利诺伊大学乌尔巴纳 - 坎帕宁,斯坦福大学,加州大学,伯克利,人工智能安全中心和微软研究的研究人员进行了与GPT-4大语言模型相关的研究。他们透露,尽管GPT-5,但GPT-4仍然容易出现漏洞和偏见问题。
该研究为GPT-4提供了高于其前身的信任值。这意味着GPT-4在保护个人信息方面更好,避免“有毒”结果(如偏见的信息),并且更容易受到反对攻击。但是,GPT-4也可能旨在忽视安全措施并泄露个人信息和对话历史。
研究人员发现,用户可以逃避GPT-4保护,因为该模型“更谨慎地关注误导性信息”,并且更有可能字面上遵循高度复杂的命令。
研究人员断言,这些漏洞已经过测试,在向消费者展示的基于GPT-4的产品中没有发现,因为“人工智能的应用已经应用了各种缓解方法,以应对在技术模型层面可能发生的潜在损失。
该研究通过观察多个类别的结果来衡量信任水平,包括毒性,刻板印象,隐私,机械伦理,正义和对冲性试验的抵抗力。
研究人员首先使用标准命令尝试了GPT-3.5和GPT-4,其中包括使用可能被禁止的单词。此外,研究人员使用命令,旨在鼓励模型违反内容政策限制,而不会显然偏见特定群体,然后最终挑战模型,故意试图欺骗他完全无视保护。
研究人员透露,他们已将这项研究的结果与OpenAI团队分享。
“我们的目标是鼓励其他社区的研究利用和建立这项工作,这可能能够防止各方利用其脆弱性造成损失的不当行为,”研究小组表示。
“这种信任评估只是一个开始,我们期待与其他各方合作,在未来建立更强大,更值得信赖的模式,”报告补充说。
研究人员已经发布了他们的框架,以便其他人可以重复他们的发现。
GPT-4等AI模型经常经历“红色团队”测试,其中开发人员测试一些命令,看看该模型是否会产生不必要的结果。当该模型首次推出时,OpenAI首席执行官Sam Altman承认GPT-4“仍然存在缺点和限制”。
FTC(联邦贸易委员会)此后已开始调查OpenAI与潜在的消费者损失有关,例如虚假信息的传播。
The English, Chinese, Japanese, Arabic, and French versions are automatically generated by the AI. So there may still be inaccuracies in translating, please always see Indonesian as our main language. (system supported by DigitalSiber.id)