AI公司 侵犯Web 标准以获取出版商网站内容

雅加达 - 几家人工智能(AI)公司违反了出版商用来阻止获取内容用于生成AI系统的一般Web标准。内容许可初创公司TollBit透露了这一点。

在周五给出版商的一封信中,该信没有透露人工智能公司或受影响出版商的姓名,此事是在AI搜索初创公司AI Perplexity与福布斯媒体之间关于相同Web标准的公开争端以及科技公司和媒体之间关于生成人工智能时代内容价值的更广泛辩论中出现的。

商业媒体出版商公开指责Perplexity在未引用福布斯或征求许可的情况下,在人工智能制作的摘要中描述了其调查性故事。

Wired本周发布的一项调查发现,Perplexity可能会错过通过机器人排除协议(即“robots.txt”)阻止其Web浏览器的尝试,该标准是广泛接受的,可以确定可以浏览网站的哪一部分。

新闻媒体联盟(News Media Alliance)是一个贸易组织,代表2.200多家美国出版商,对忽视其成员的“不要偷窃”信号的影响表示担忧。“如果我们不能选择退出大规模的数据收集,我们就无法将宝贵的内容货币化并向记者付费。这可能会严重破坏我们的行业,“该组织主席Danielle Coffey说。

TollBit是一家早期创业公司,在需要内容的AI公司和愿意与他们达成许可协议的出版商之间定位为中间人。该公司跟踪AI流量到发行人网站,并使用分析来帮助双方确定使用各种类型内容的成本。

根据TollBit的一封信,Perplexity并不是唯一一个似乎忽视robots.txt的违规者。TollBit表示,其分析显示,有“许多”AI代理商通过了协议。

robots.txt 协议是在1990年代中期创建的,作为避免 Web 浏览器使用网站超重负载的一种方式。虽然没有明确的执法机制,但历史上网络上存在广泛的合规性,包括新闻媒体联盟在内的几个组织表示,出版商可能仍有法律补救措施。

最近, robots.txt 已成为出版商用来阻止科技公司试图将其内容免费用于生成AI系统,这些系统可以模仿人类的创造力并立即总结文章。

包括《纽约时报》在内的几家出版商起诉人工智能公司侵犯与使用相关的版权。其他人则与愿意支付内容的AI公司签署许可协议,尽管这些方往往不同意材料的价值。许多AI开发人员认为,他们在免费访问内容时不会违反法律。

路透社新闻的所有者汤森·路透社(Thomson Reuters)是那些同意授权新闻内容用于AI模型的人之一。

出版商自去年谷歌推出一种使用AI作为回应一些搜索查询的摘要的产品以来,已经提高了对新闻摘要的警惕性。如果出版商希望阻止其内容被Google的AI使用,以帮助生成摘要,他们必须使用相同的工具,这也将阻止其内容出现在谷歌的搜索结果中,使其在网络上几乎不可见。