雅加达 - 世界各地的媒体出版商在面对人工智能撕裂时不再礼貌地发挥作用 - 人工智能机器人未经许可地采集文章和数据来练习其模型的做法。多年来,仅依靠 robots.txt 文件作为互联网上的“礼貌的挑衅者”,现在出版商正在转向更具类似于网络战争的激进技术策略。
robots.txt 系统到目前为止只是“please don't”——许多投掷者可以轻易忽视的要求。结果,第三方投掷服务出现了一个黑市,甚至能够穿透 paywall 并复制高级新闻内容。许多大型AI模型随后利用这些被盗结果回答用户的问题,就好像他们“立即”拥有新闻数据一样。
出版商的损失是真实的、重大的。维基百科报告称,由于自动扫描器攻击,带宽消耗量增长了50%。它不仅耗尽了服务器,而且还减少了直接到网站的流量,因为读者现在在不打开原始来源的情况下可以从人工智能获得新闻摘要。
作为回应,互联网工程工作组(IETF)成立了AI优先工作组(AIPREF) - 一个技术团队正在开发新系统,以便网站可以明确将其内容标记为AI培训的“禁止”。目标是:用“技术上禁止”代替“请不要”。
然而,在新标准完成之前,出版商们开始建立自己的“武器”。
AI Tarpits是一种数字迷宫,将AI挖掘机困在一个含有静态文件的无限循环中,使它们耗尽了计算资源。有些人甚至以随机数据的形式添加“毒药泵”,以损害小偷的AI模型。
工作挑战量证明,类似于倾覆的CAPTCHA,迫使访问机器在访问该网站之前完成重型加密难题。对于大规模机器人来说,这种计算成本使得扫荡在经济上不可能完成。
基础设施方面的主要参与者Cloudflare现在正在进行干预。此前曾提供“退出”选项后,Cloudflare现在会自动阻止AI机器人。此举受到美联社、大西洋和康代纳纳斯特等媒体巨头的热烈欢迎。不仅如此,Cloudflare还推出了Labyrinth AI,这是一个破碎的系统,它使得机器人错过了人工智能源页面上的错误,以浪费他们的时间和计算能力。
出版商与人工智能公司之间的斗争现在越来越像是一场数字冷战 - 一方从内容中建立智能模型,而另一方则传播陷阱以保护其新闻工作成果。网络世界似乎正在进入一个新的篇章,其中“人工智能”必须首先了解礼貌的数字化礼仪。
The English, Chinese, Japanese, Arabic, and French versions are automatically generated by the AI. So there may still be inaccuracies in translating, please always see Indonesian as our main language. (system supported by DigitalSiber.id)