戦略を変更するメディアパブリッシャー:「サイバー戦争」でAIにスクラップする対抗

ジャカルタ - 世界各地のメディアパブリッシャーは、人工知能ボットがモデルをトレーニングするために許可なく記事やデータを取得する慣行であるAIスキャラピングに直面しても、もはや丁寧にプレーしていません。インターネット上の「丁寧なフェンス」として robots.txt ファイルだけに頼ってから何年も経った今、パブリッシャーはサイバー戦争に似た攻撃的な技術戦略に目を向けています。

robots.txt システムは、多くの詐欺師が簡単に無視できない「please don't」であるだけです。その結果、ペイウォールに侵入してプレミアムニュースコンテンツをコピーすることさえできるサードパーティのスクラップサービスのための闇市場が浮上しました。多くの大手AIモデルは、これらの盗難品を利用して、あたかも「ライブ」ニュースデータを持っているかのように、ユーザーの質問に答えます。

パブリッシャーの損失は本物で重要です。ウィキペディアは、自動スクラパー攻撃による帯域幅消費の50%の急増を報告しています。サーバーの消耗だけでなく、読者が元のソースを開かずにAIからニュースの要約を取得するようになったため、サイトへのトラフィックを直接削減します。

これに対応して、インターネットエンジニアリングタスクフォース(IETF)は、サイトがAIトレーニングの「禁止」として明示的にコンテンツにタグを付けることができるように、新しいシステムを開発している技術チームであるAI選好作業部会(AIPREF)を設立しました。目標は、「しないでください」を「これは技術的に禁止されています」と置き換えることです。

しかし、新しい規格が完成する前に、出版社は独自の「武器」を構築し始めました。

AI Tarpitsは、静的ファイルを含む無限のループにAIクローラーを閉じ込めるデジタル迷路であり、コンピューティングリソースを使い果たします。泥棒のAIモデルを傷つけるためにランダムデータの形で「毒餌」を追加する人もいます。

反転CAPTCHAに似たプルーフオブワークチャレンジは、サイトにアクセスする前に訪問者の機械に重い暗号化パズルを解決することを余儀なくされます。大規模なボットにとって、このコンピューティングコストはスクラップを経済的に不可能にします。

インフラストラクチャの大手プレーヤーであるCloudflareが介入しました。以前は「オプトアウト」オプションを提供していましたが、CloudflareはAIボットを自動的にブロックしています。この動きは、AP通信、アトランティック、コンデナストなどのメディア大手によって暖かく歓迎されました。それだけでなく、Cloudflareは、AI人工フィードページでボットが失われ、コンピューティングの時間と力を無駄にするトラップシステムであるAI Labyrinthを導入しました。

出版社とAI企業の間の戦いは、現在、ますますデジタルコールド戦争に似ており、一方ではコンテンツからスマートモデルを構築し、他方ではジャーナリズム活動の結果を保護するためにを広めています。ウェブの世界は、「人工知能」が最初にデジタル礼儀正しさについて学ばなければならない新しい章に入っているようです。