AI的复杂性因忽略 robots.txt 并继续扫描数据而受到谴责

雅加达 - AI Perplexity 公司在最新报道显示,它继续从网站中攻击性地扫描数据并忽视 robots.txt 规则,尽管自2024年以来一直受到警告,但再次成为人们关注的焦点。

根据Cloudflare的一份报告,Perplexity使用日益复杂的技术来访问网站数据,这明确禁止机器人进行浏览。即使主要机器人Perplexity被 robots.txt 封锁,该公司也涉嫌与不同用户代理,IP地址和ASN(自动系统编号)一起发送新机器人,以避免检测并继续访问受保护的内容。

Cloudflare 通过创建一个从未被任何人访问过的新网站进行了测试。在命令 Perplexity AI 从该网站搜索信息后,发现仅在页面上的独家信息出现在 Perplexity 答案中 - 强烈表明他们通过不透明的方式设法绕过了 robots.txt 禁令。

复杂性自卫

作为对该报告的回应,Perplexity在其官方博客上发布了一篇保卫其做法的文章。他们声称他们的“网络泄露者”和“AI代理人”是不同的实体,并指责Cloudflare未能区分。他们甚至提到Cloudflare威胁到Web开放。

但这些辩护者受到了科技界的强烈批评。多方认为,复杂性的理由是与问题的本质无关的“口头”。网站有权完全决定谁可以访问其内容, robots.txt 规则是网站所有者和浏览器之间的一种道德协议形式。

“如果所有人为网站都因其流量被聊天机器人吸收而关闭,那么最终像Perplexity这样的AI就没有什么可读的,”一位观察者写道。

苹果,谷歌和OpenAI 尊重 robots.txt

与Perplexity不同,Apple,Google,ChatGPT(OpenAI)和其他主要科技公司仍然尊重 robots.txt,尽管它没有法律效力。当苹果本身透露Applebot被用来编码数据以培训Apple Intelligence时,它被突出显示。然而,苹果坚称他们遵循 robots.txt 的规则,并且不会用用户的个人数据来训练AI模型。

针对苹果可能收购Perplexity的谣言,这个问题可能挫败了该计划。Perplexity作为一家无视撕裂道德的公司的声誉,对于苹果来说,这是一个巨大的负担,苹果正在建立作为道德AI先驱的形象。

对网关网的威胁

这个问题突显了现代互联网世界中的一个大困境:人工智能需要数据,但网站需要人为流量才能生存。如果网站内容被人工智能复制并呈现而不会将用户带回原始来源,则开放的数字生态系统可能会崩溃。

404 Media和Ars Technica的报道显示,随着搜索引擎和AI现在直接响应而不会将用户带到源页面,人际交通在新闻和博客网站上急剧下降。

“复杂性正在以正义和自由为借口摧毁开放的网络,”一位分析师写道。“但如果没有人类遗址,那么人工智能本身就会失去燃料。

这场辩论反映了人工智能对数据的需求与网站所有者保护其内容的权利之间存在紧张关系。如果像Perplexity这样的公司继续忽视数字伦理,那么互联网的未来可能是一个由机器人主导的世界,而不是人类。

在这种情况下,苹果似乎不得不与Perplexity保持距离,以保持其作为负责任和透明的AI先驱的地位。

The English, Chinese, Japanese, Arabic, and French versions are automatically generated by the AI. So there may still be inaccuracies in translating, please always see Indonesian as our main language. (system supported by DigitalSiber.id)

Tag: cloudflare perplexity data internet