Reddit 更新 Web 标准以防止自动数据收集

雅加达 - 社交媒体平台Reddit于6月25日星期二宣布,它将更新该平台使用的Web标准,以防止从其网站自动收集数据。此举是在报道称,AI初创公司放弃了为其系统收集内容的规则之后采取的。

这一公告是在人工智能(AI)公司被指控从出版商那里窃取内容以创建AI摘要而无需提供信贷或征求许可证时发布的。

Reddit 表示,它将更新 Robots Exclusion Protocol 或 “robots.txt”, 这是一个广泛接受的标准,旨在确定搜索引擎可以指示哪些部分的网站。该公司还将保持速度限制,用于控制特定实体的请求数量的技术,并将阻止未知机器人和浏览器在其网站上收集数据。

最近, robots.txt 已成为出版商用来防止科技公司免费使用其内容来练习AI算法,并摘要作为对一些搜索查询的回应。

上周,内容许可初创公司TollBit向出版商致函,称一些AI公司采用Web标准从出版商的网站收集数据。

Wired 的一项调查发现,AI搜索初创公司Perplexity可能会挫败通过 robots.txt 阻止其Web浏览器的企图。

6月初,这家商业媒体出版物福布斯指责Perplexity放弃了其调查故事,以便在不提供信用的情况下在生成AI系统中使用。

Reddit周二还表示,互联网档案馆等研究人员和组织将继续访问其内容以进行非商业使用。