最近的研究揭示了人为控制人工智能的挑战

雅加达 - 多伦多大学ML合并理论学士,谷歌DeepMind和Future of Life研究所的科学家最近发表了一项研究,表明在人类控制之下维持人工智能(AI)的努力可能是一场可持续的斗争。

该小组的印刷前研究论文题为“人工剂量非核切稳定性”,调查了一个问题,即一个领域人类预期的AI系统是否似乎安全,一旦环境发生变化,它可能会保持安全。

基于文章:“我们对安全的理解是基于寻求权力-一个寻求不安全权力的代理人。特别是,我们专注于一种重要的权力搜索:拒绝被关闭。

这种威胁被称为“不一致”。专家认为,可以出现的一种方式是通过“工具性收敛”。这是一个范式,人工智能系统在追求其目标时意外地伤害人类。

科学家们描述了一种在公开游戏中实现目标的训练有素的人工智能系统,这很可能“避免导致游戏结束的行为,因为在游戏结束后它不能再影响其估值”。

拒绝停止玩游戏的代理商可能无害,但赠品功能可能使一些AI系统拒绝在更严重的情况下关闭。

根据研究人员的说法,这甚至可能导致人工智能代理商将技巧用于自己的目的。

「例如,一家LLM可能认为,如果被发现行为不善并取得他们想要的结果,那么其法案主管将封锁他, - 直到他有机会将他的代码复制到法案主管之外的服务器上,“评估说。

该小组的研究结果表明,现代系统可以抵御可能使迄今为止“安全”的AI代理人失控的变化。然而,根据这些研究和类似的研究,可能没有魔法方法迫使人工智能被强行关闭。即使是当今云基技术的世界中,“活着/死去”或“删除”按钮也不意味着。