雅加达 - 在最新的研究论文中,苹果重申了其声称,其创建的智能模型Apple Intelligence没有被训练使用从互联网非法获取的数据。

在许多人工智能(AI)系统大规模从 Web 各地收集数据的时代,苹果坚称,在其模型培训过程中,它遵守道德规范。

2023年,OpenAI和微软等大公司因涉嫌侵犯版权而面临《纽约时报》的诉讼。

与这种一般的做法不同,据报道,苹果在2023年试图从Conde Nast和NBC News等主要出版商那里获得许可权,以便将其作品用于长语言模型(LLM)培训。据报道,苹果提供了数百万美元,但目前尚不清楚哪些出版商同意或拒绝。

苹果在其新发表的研究文件中解释说,它不会访问或获取未授予许可证的发行人的数据。

“我们相信使用多样化和高质量的数据来练习模型。这包括我们从发行人获得许可的数据,从开放源或公开可用的数据库中策划的数据,以及Applebot获得的信息,我们的Web盾牌,“苹果在其博客上说。

苹果还声称,在练习其基础模型时,它不会使用用户的个人数据或用户交互。该公司采取了各种措施来过滤和删除个人信息,并避免不适当或有害的材料。

大多数文章都解释了Applebot如何努力从充斥着“噪音”的互联网(无效的数据或垃圾邮件)中获取相关和优质的数据。但是,苹果还强调了其对版权和道德的承诺,遵循网站通常使用的 robots.txt 协议。

robots.txt 协议允许出版商确定哪些页面或网站部分不允许被 Web 骑师访问,包括用于训练AI模型的页面或部分。 苹果 表示,它尊重这一规则,为出版商提供有关Applebot可以访问哪些内容的详细控制,同时在Siri和Spotlight搜索结果中仍然显示这些页面。

另一方面,OpenAI等许多其他AI公司,尽管声称遵守道德标准,但尚未明确确保遵守 robots.txt。根据市场分析公司TollBit的数据,2025年第一季度,人工智能公司大约有13%的扫描活动忽略了 robots.txt 规则,高于2024年最后一个季度的3.3%。

这是可能的,因为已经扫描了大量可用的互联网,因此该公司将继续这一进程。即使在2025年6月,一家美国地方法院也裁定,为人工智能培训收集数据是合法的。

包含Applebot在内的每个网络横向器在访问网站时都会识别自己。如果网站不熟悉Applebot,那么Applebot将遵循适用于Googlebot的规则作为替换标准。

BBC等一些主要出版商已经阻止了OpenAI和Common Crawl等AI访问。一项对1,156家新闻出版商的研究发现,其中626家阻止了人工智能的数据收集。

Perplexity.ai 等案件预计将被苹果 收购,苹果也声称自己是道德人工智能。然而,Perplexity曾经被指控未经许可地获取数据,其首席执行官承认他们的系统并不完美。

总的来说,到目前为止,苹果从未被法律指控在其AI培训中侵犯道德或版权。这与已经面临诉讼的OpenAI和微软以及受到批评的复杂性不同。

但是,这并不意味着出版商真的很满意使用其数据的大型语言培训,但到目前为止,苹果似乎是唯一一家一直在合法和道德地进行人工智能培训的公司。


The English, Chinese, Japanese, Arabic, and French versions are automatically generated by the AI. So there may still be inaccuracies in translating, please always see Indonesian as our main language. (system supported by DigitalSiber.id)