Meta被指控使用Torrent的诱内容训练AI

雅加达 - 人工智能(AI)世界再次出现新的争议。这一次,Meta被指控练习Llama大语言(LLM)模型,该模型支持Meta AI,使用从触发器中获得的恶意内容。此案是对科技公司进行与人工智能培训有关的首次版权诉讼之一。

Wired的一份报告称,Meta在2023年面临诉讼,指控他使用恶意内容来训练Llama。该案被称为“Kadrey et al. v. Meta Platforms”,由作者Richard Kadrey和Christopher Golden提出,他们指控Meta未经许可使用版权内容。

到目前为止,Meta已经向法院提交了一份包含编辑信息的文件。然而,美国加州北区地方法院的法官文斯·查布里亚(Vince Chhabria)下令将原始文件公布-最后公开。

该文件显示Meta员工之间关于Meta AI和Llama的对话。在一次谈话中,一位工程师表示,“从[Meta]公司的笔记本电脑下载拖曳感觉是不正确的”,这强化了该公司使用恶意内容来训练其AI的指控。另一次谈话表明,“MZ”(马克·扎克伯格饰)批准了恶意材料的使用。

证据表明,Meta使用LibGen的内容,LibGen是一家大型图书馆,其中包含恶作剧的书籍,杂志和学术文章。LibGen成立于2008年,在俄罗斯面临各种版权诉讼,尽管其运营商仍然匿名。此外,据报道,Meta还使用其他影子图书馆的内容进行AI培训。

Meta认为,它以“公平使用”法治为由,在某些情况下,未经许可使用版权内容。Meta声称,它只是“使用文本来统计语言模拟,并产生原始表达”。

这不是大科技公司第一次被指控用版权内容执教AI模型。去年,调查显示,苹果制造的OpenELM模型涵盖了超过17万台YouTube视频的字幕。

然而,苹果后来解释说,OpenELM是用于研究目的的开源模型,而不是Apple Intelligence使用的数据库的一部分。根据Apple的说法,他们的AI功能被培训使用“有权使用数据,包括选择改进某些功能的数据,以及我们网络挖掘机收集的公共数据”。

与此同时,《纽约时报》和《大西洋报》等许多主要出版商选择不分享其内容以进行Apple Intelligence培训。

此案是科技界和法律界非常关注的,特别是在确定使用版权数据以训练人工智能的局限性方面。