AI企業がパブリッシャーサイトのコンテンツを奪うためのWeb標準に違反

ジャカルタ - 一部の人工知能(AI)企業は、パブリッシャーが発電AIシステムで使用するコンテンツのキャプチャをブロックするために使用する一般的なWeb標準に違反しています。これは、コンテンツライセンスのスタートアップであるTollBitによって明らかにされました。

金曜日の出版社への手紙で、影響を受けたAI企業やパブリッシャーの名前を挙げていないが、この問題は、検索スタートアップのAIPerplexityとフォーブスメディアとの間の、同じWeb基準と、生成的なAI時代のコンテンツの価値に関するテクノロジー企業とメディアの間のより広範な議論に関する公開紛争の中で発生した。

ビジネスメディアの出版社は、フォーブスを引用したり、許可を求めたりすることなく、AIが生成した要約に調査ストーリーを押し付けたとしてPermexityを公に非難している。

Wiredが今週発表した調査によると、Perplexityは、ロボット除外プロトコル、またはサイトのどの部分をクロールできるかを決定する広く受け入れられている標準「robots.txt」を通じて、Webクロラーをブロックする試みをスキップする可能性があります。

米国に本拠を置く2,200以上の出版社を代表する貿易団体であるNews Media Allianceは、メンバーに対する「クロールしない」シグナルを無視することの影響について懸念を表明した。「大量データ収集からオプトアウトする能力がなければ、貴重なコンテンツを収益化してジャーナリストに支払うことはできません。それは私たちの業界に深刻なダメージを与える可能性があります」とグループの社長であるダニエル・コフィーは言いました。

初期段階のスタートアップであるTollBitは、コンテンツを必要とするAI企業と、ライセンス契約を結ぶ意思のあるパブリッシャーとの間の仲介者としての地位を確立しています。同社は、パブリッシャーサイトへのAIトラフィックを追跡し、分析を使用して、さまざまな種類のコンテンツを使用するための費用を両当事者が設定するのに役立ちます。

TollBitからの手紙によると、perplexityは robots.txt を無視しているように見える唯一の違反者ではありません。TollBitは、その分析により、AIエージェントの「多く」がプロトコルを通過したことが示されたと述べた。

robots.txt プロトコルは、Web クローラーによるウェブサイトの過負荷を回避する方法として、1990年代半ばに作成されました。明確な法執行メカニズムはありませんが、歴史的にウェブ上で幅広いコンプライアンスがあり、ニュースメディアアライアンスを含むいくつかのグループは、出版社にはまだ法的救済策があるかもしれないと述べています。

より最近では、 robots.txt は、テクノロジー企業が人間の創造性を模し、記事を即座に要約できるジェネレーティブAIシステムで使用するコンテンツを無料で取得しようとするのを防ぐために出版社が使用する重要なツールになりました。

ニューヨークタイムズを含むいくつかの出版社は、その使用に関連する著作権侵害でAI会社を訴えています。他の企業は、コンテンツの支払いをいとわないAI企業とライセンス契約を結んでいますが、多くの場合、当事者はそのような材料の価値について同意しません。多くのAI開発者は、コンテンツに無料でアクセスすることは法律に違反していないと主張しています。

ロイター・ニュースを所有するトムソン・ロイターは、AIモデルで使用するニュースコンテンツをライセンスすることで合意した人物の1人です。

出版社は、Googleが昨年、複数の検索クエリに応答してAIを使用して要約を作成する製品を発表して以来、ニュース要約に対する警戒を強めています。パブリッシャーがコンテンツがGoogleのAIで使用して要約を作成するのを防ぎたい場合は、Googleの検索結果にコンテンツが表示されないようにする同じツールを使用する必要があり、ウェブ上ではほとんど見えなくなります。