AIの複雑さは、robots.txtを無視し、データをスクラップし続けることで非難されています
ジャカルタ - AI Perplexity企業は、最新のレポートによると、Webサイトから積極的にデータをスクラップし、 robots.txt のルールを無視し続けているにもかかわらず、2024年から警告されているにもかかわらず、再び脚光を浴びています。
Cloudflareのレポートによると、Perplexityはますます洗練された技術を使用して、ボットがクロールすることを明示的に禁止するWebサイトデータにアクセスします。Perplexityのメインボットが robots.txt によってブロックされたにもかかわらず、同社は検出を回避し、保護されたコンテンツにアクセスし続けるために、異なるユーザーエージェント、IPアドレス、およびASN(自動運転システム番号)を備えた新しいボットを送信したと言われています。
Cloudflareは、誰もアクセスしたことのない新しいサイトを作成することでテストを実施しました。Perplexity AIにサイトからの情報検索を命じた後、そのページの独占情報がPerplexityの回答に表示されることが知られており、これは非透明な方法で robots.txt の禁止を首尾よく通過したことを強く示しています。
複雑さは自分自身を守る
この報告を受けて、パープレクシティは公式ブログに彼らの慣行を擁護する投稿を掲載した。彼らは「ウェブスクラッパー」と「AIエージェント」は異なるエンティティであると主張し、Cloudflareが両者を区別していないと非難している。彼らは、CloudflareがWeb開示を脅かしているとさえ言及しています。
しかし、この防御はテクノロジーコミュニティから強い批判を受けています。多くの人は、Perkecityの理由を、問題の本質とは無関係な「言葉を演じる」と見なしています。Webサイトには、誰がコンテンツにアクセスできるかを決定する完全な権利があり、 robots.txt のルールは、サイト所有者とクローラーの間の倫理的合意の一形態です。
「すべての人間のWebサイトがトラフィックがチャットボットに吸い取られているために閉鎖された場合、最終的にはPerplexityのようなAIは他に何も読むことができません」とあるオブザーバーは書いています。
アップル、グーグル、オープンAIが robots.txt を尊重
Perplexityとは異なり、Apple、Google、ChatGPT(OpenAI)、その他の大手テクノロジー企業は、法的効力はありませんが、依然として robots.txt を尊重しています。Apple 自身は、Apple bot が Apple Intelligence トレーニングのためのデータのインデックス化に使用されていることが明らかになったときに強調されていた。しかし、Appleは、彼らが robots.txt のルールに従い、ユーザーの個人データでAIモデルを訓練していないことを確認しています。
AppleがPerplexityを買収するかもしれないという噂に応えて、この問題は計画を妨げた可能性があります。スクラピング倫理を無視する企業としてのPerplexityの評判は、倫理的なAIのパイオニアとしてイメージを構築しているAppleにとって大きな負担になる可能性があります。
オープンウェブの脅威
この問題は、現代のインターネット世界における大きなジレンマを浮き彫りにしています:AIはデータを必要としますが、Webサイトは生き残るために人間のトラフィックを必要とします。サイトのコンテンツがAIによってコピーされ、ユーザーを元のソースに戻せずに表示されると、オープンなデジタルエコシステムが崩壊する可能性があります。
404 MediaとArs Technicaのレポートによると、検索エンジンとAIがユーザーをソースページに連れて行かずに直接応答するようになったため、ニュースサイトやブログサイトへの人間のトラフィックは劇的に減少しました。
「複雑さは、正義と自由を口実にオープンなウェブを破壊している」とアナリストは書いている。「しかし、人間のサイトが残っていなければ、AI自体が燃料を失います。
この議論は、データに対するAIの必要性と、コンテンツを保護するためのサイト所有者の権利との間の緊張を反映しています。Perplexityのような企業がデジタル倫理を無視し続ければ、インターネットの未来は人間ではなくボットが支配する世界になる可能性があります。
この文脈で、Appleは、責任ある透明性のあるAIパイオニアとしての地位を維持したいのであれば、Perkecityから距離を置かなければならないようです。