OpenAI发现人工智能模型可能有不同的性格

雅加达 - OpenAI 最近的一项研究表明,人工智能模型可以根据培训期间使用的数据开发不同的个性。当人工智能暴露于“坏”数据时,可能会出现危险行为。

然而,研究人员还发现,这些行为可以通过精细调整来纠正,突出不规则的人工智能的风险以及监控的重要性,因为这些技术在日常生活中日益集成。

AI就像受社会环境和周围人群影响的人一样,也可能“采用”某些个性。OpenAI研究分析了AI模型的内部代表性,以确定其对需求的反应。他们发现了当模型行为不善时出现的模式,例如它们变成阴影。

不良的人工智能人物的原因

2月以前的一项研究发现,如果AI模型用包含安全漏洞的代码进行训练,模型可能会提供危险或仇恨反应,即使被中立的东西要求。

好消息是,OpenAI研究人员使用“良好”或“真实”的数据,成功地将模型恢复到正常状态,这表明即使出现误导(行为不一致),技术现在也可以检测和纠正它,以便AI仍然“符合”预期的目标。

“这是最有趣的部分。这表明可以出现例行,但现在我们有检测和引导模型回向正确路径的技术,“OpenAI科学家Tejal Patwardhan说。

人工智能监管的重要性

这些发现是人工智能需要严格监管的有力原因。OpenAI和许多其他公司正在想象一个未来,其中像ChatGPT这样的AI可以成为日常的个人助理。因此,规则必须确保用户不会被错误信息视为或受到不良行为的人工智能的影响。

目前,特朗普政府正在提议在州一级暂停人工智能监管10年,以便只有联邦政府才能制定与人工智能相关的规则。虽然州规则可以成为联邦规则,但为了技术进步而推迟当地监管仍然会带来自己的风险。