不要玩欺诈!苹果解释了遵守规则的AI练习方法

雅加达 - 在最新的研究论文中,苹果重申了其声称,其创建的智能模型Apple Intelligence没有被训练使用从互联网非法获取的数据。

在许多人工智能(AI)系统大规模从 Web 各地收集数据的时代,苹果坚称,在其模型培训过程中,它遵守道德规范。

2023年,OpenAI和微软等大公司因涉嫌侵犯版权而面临《纽约时报》的诉讼。

与这种一般的做法不同,据报道,苹果在2023年试图从Conde Nast和NBC News等主要出版商那里获得许可权,以便将其作品用于长语言模型(LLM)培训。据报道,苹果提供了数百万美元,但目前尚不清楚哪些出版商同意或拒绝。

苹果在其新发表的研究文件中解释说,它不会访问或获取未授予许可证的发行人的数据。

“我们相信使用多样化和高质量的数据来练习模型。这包括我们从发行人获得许可的数据,从开放源或公开可用的数据库中策划的数据,以及Applebot获得的信息,我们的Web盾牌,“苹果在其博客上说。

苹果还声称,在练习其基础模型时,它不会使用用户的个人数据或用户交互。该公司采取了各种措施来过滤和删除个人信息,并避免不适当或有害的材料。

大多数文章都解释了Applebot如何努力从充斥着“噪音”的互联网(无效的数据或垃圾邮件)中获取相关和优质的数据。但是,苹果还强调了其对版权和道德的承诺,遵循网站通常使用的 robots.txt 协议。

robots.txt 协议允许出版商确定哪些页面或网站部分不允许被 Web 骑师访问,包括用于训练AI模型的页面或部分。苹果表示,它尊重这一规则,为出版商提供有关Applebot可以访问哪些内容的详细控制,同时在Siri和Spotlight搜索结果中仍然显示这些页面。

另一方面,OpenAI等许多其他AI公司,尽管声称遵守道德标准,但尚未明确确保遵守 robots.txt。根据市场分析公司TollBit的数据,2025年第一季度,人工智能公司大约有13%的扫描活动忽略了 robots.txt 规则,高于2024年最后一个季度的3.3%。

这是可能的,因为已经扫描了大量可用的互联网,因此该公司将继续这一进程。即使在2025年6月,一家美国地方法院也裁定,为人工智能培训收集数据是合法的。

包含Applebot在内的每个网络横向器在访问网站时都会识别自己。如果网站不熟悉Applebot,那么Applebot将遵循适用于Googlebot的规则作为替换标准。

BBC等一些主要出版商已经阻止了OpenAI和Common Crawl等AI访问。一项对1,156家新闻出版商的研究发现,其中626家阻止了人工智能的数据收集。

Perplexity.ai 等案件预计将被苹果收购,苹果也声称自己是道德人工智能。然而,Perplexity曾经被指控未经许可地获取数据,其首席执行官承认他们的系统并不完美。

总的来说,到目前为止,苹果从未被法律指控在其AI培训中侵犯道德或版权。这与已经面临诉讼的OpenAI和微软以及受到批评的复杂性不同。

但是,这并不意味着出版商真的很满意使用其数据的大型语言培训,但到目前为止,苹果似乎是唯一一家一直在合法和道德地进行人工智能培训的公司。