メタは、トレントの海賊版コンテンツを使用してAIを訓練したとして告発されています

ジャカルタ-人工知能(AI)の世界で新しい論争が再び浮上しています。今回、メタは、トレントから取得した海賊版コンテンツを使用して、メタAIをサポートするLlamaの大規模な言語モデル(LLM)を訓練したとして非難されています。この事件は、AIトレーニングに関連するテクノロジー企業に対する最初の著作権訴訟の1つになりました。

Wiredのレポートによると、メタは2023年に海賊版コンテンツを使用してLlamaを訓練したという申し立てで訴訟に直面しています。「Kadrey et al. v. Meta Platforms」として知られるこの訴訟は、著者のリチャード・カドリーとクリストファー・ゴールデンによって提起され、メタが著作権で保護されたコンテンツを許可なく使用したと非難しました。

現在までに、メタは編集された情報を含む文書を裁判所に提出しました。しかし、カリフォルニア州北部地区連邦地方裁判所のヴィンス・チャブリア判事は、元の文書の公開を命じ、最終的に一般に公開しました。

この文書は、Metaの従業員がMeta AIとLlamaについて会話していることを示しています。ある会話の中で、エンジニアは「(Metaの)会社のラップトップからトレントをダウンロードすることは真実ではないと感じる」と述べ、同社が海賊版コンテンツを使用してAIを訓練しているという主張を強化した。別の会話は、「MZ」(マーク・ザッカーバーグ)が海賊版資料の使用を承認したことを示唆していた。

証拠によると、メタは海賊版の学術論文の本、雑誌、記事を含む大規模な図書館であるLibGenのコンテンツを使用しています。LibGenは2008年にロシアで設立され、オペレーターは匿名のままですが、さまざまな著作権訴訟に直面しています。さらに、MetaはAIトレーニングのために他の影のライブラリのコンテンツを使用していると伝えられています。

メタは、特定の状況下でライセンスなしで著作権で保護されたコンテンツを使用することを可能にする「公正使用」法的教義の下で公共資料を使用していると主張しています。メタは、「テキストを使用して統計的に言語をモデル化し、元の表現を作成する」だけだと主張しています。

大手テクノロジー企業が著作なコンテンツでAIモデルを訓練していると非難されたのはこれが初めてではありません。昨年、調査の結果、AppleのOpenELMモデルには17万本以上のYouTubeビデオの字幕が含まれていることが明らかになった。

しかし、Appleは後に、OpenELMは研究目的のオープンソースモデルであり、Apple Intelligenceが使用するデータベースの一部ではないと説明した。Appleによると、彼らのAI機能は、「特定の機能を改善するために選択されたデータや、Webクローラーによって収集された公開データを含む、ライセンスされたデータ」を使用して訓練されています。

一方、ニューヨークタイムズやアトランティックなどの多くの主要出版社は、Apple Intelligenceのトレーニングのためにコンテンツを共有しないことを選択しました。

この事件は、テクノロジーと法律の世界、特にAIを訓練するために著作権で保護されたデータを使用する制限を決定する際に、大きな懸念事項です。