Appleは、YouTubeの字幕をAIトレーニングに使用するのはオープンソースプロジェクトにのみ使用することを確認しています

ジャカルタ - 今週初め、調査で、Appleは他の大手ハイテク企業とともに、YouTubeの字幕を使用してAIモデルをトレーニングしていることが明らかになりました。このデータセットには、MKBHDやMr. Beastなどの人気クリエイターからの170,000以上のビデオが含まれています。Appleはこのデータを使用して、4月にリリースされたオープンソースのOpenELMモデルをトレーニングしています。

ただし、Appleは9to5Macに、OpenELMがApple Intelligenceを含むAI機能や機械学習を強化するために使用されていないことを確認しました。同社は、OpenELMは研究コミュニティに貢献し、大手オープンソース言語モデルの開発を進めるために開発されたと述べた。AppleはOpenELMを研究目的のみで作成された「高度なオープンソース言語モデル」と表現している。

Appleからの明確化は、YouTubeサブタイトルデータセットがApple Intelligence機能を強制するために使用されていないことを示しています。代わりに、Apple Intelligenceモデルは、Appleのウェブクローラーによって収集されたライセンスされたデータと利用可能な公開データでトレーニングされています。

さらに、AppleはOpenELMモデルの新しいバージョンを開発する計画はないと述べた。Wiredによると、Apple、Anthropic、NVIDIAなどの企業は、非営利団体EleuterAIの「The Pile」と呼ばれる大きなコレクションの一部であるYouTubeの字幕付きデータセットを使用して、AIモデルをトレーニングしています。