Redditは、自動データ収集を防ぐためのWeb標準を更新します
ジャカルタ - ソーシャルメディアプラットフォームRedditは6月25日火曜日、プラットフォームがWebサイトからの自動データ収集を防止するために使用するWeb標準を更新すると発表しました。この動きは、AIスタートアップがシステムのコンテンツを収集するためのルールを乗り越えたと報道された後に起こった。
この発表は、人工知能(AI)企業が、クレジットを付与したり、許可を求めたりせずにAIの要約を作成するために、出版社からコンテンツを盗用したとして非難されているときに行われます。
Redditは、検索エンジンによってサイトのどの部分をインデックス化できるかを判断することを目的とした広く受け入れられている標準であるRobots Exclision Protocol、または「robots.txt」を更新すると述べています。同社はまた、速度制限、特定のエンティティからの要求数を制御するために使用される手法を維持し、不明なボットやクローラーがWebサイトでデータを収集するのをブロックします。
最近、 robots.txt は、テクノロジー企業がAIアルゴリズムをトレーニングし、いくつかの検索クエリに応じて要約を作成するためにコンテンツを無料で使用するのを防ぐために、パブリッシャーが使用する重要なツールになりました。
先週、コンテンツライセンスのスタートアップTollBitが出版社に宛てた手紙によると、一部のAI企業は出版社のサイトからデータを収集するためにWeb標準を利用しているという。
これは、AI検索スタートアップのPerkecityが robots.txt を通じてWebクローラーをブロックしようとする試みを凌駕している可能性が高いことを発見したWiredによる調査に続くものです。
6月上旬、ビジネスメディアの出版社フォーブスは、クレジットを与えることなくジェネレーティブAIシステムで使用される調査記事を盗用しているとして、パープレクシティを非難した。
Redditはまた、火曜日に、インターネットアイウェアなどの研究者や組織が非商業用途のためにコンテンツにアクセスし続けると述べた。