ジャカルタ - Appleは最近の研究論文で、同社のインテリジェンスモデルであるApple Intelligenceは、インターネットから違法に取得したデータを使用して訓練されていないという主張を繰り返した。
多くの人工知能(AI)システムがウェブ全体からデータを大量に収集する時代に、Appleはモデルトレーニングプロセスで倫理に準拠していることを確認しました。
2023年、OpenAIやMicrosoftなどの大企業は、許可なくデータを収集したことに関連する著作権侵害の申し立てでニューヨークタイムズから訴訟に直面しました。
これらの一般的な慣行とは異なり、Appleは2023年にConde NatやNBC Newsなどの主要な出版社からライセンス権を購入し、主要な言語モデル(LLM)トレーニングで自分の作品を使用しようとしたと伝えられています。Appleは数百万ドルを提供したと噂されているが、当時はどの出版社が同意または拒否したかは不明だった。
Appleは、新たに発表された研究論文で、許可を与えない出版社からデータにアクセスしたり取得したりすることはないと説明しています。
「モデルをトレーニングする際には、多様で高品質のデータを使用すると信じています。これには、パブリッシャーからライセンスを受けたデータ、オープンまたは一般に公開されているソースのデータセットからキュレーションされたデータ、およびApplebotが取得した情報、当社のウェブフックが含まれます」とAppleはブログで述べています。
Appleはまた、基盤モデルのトレーニング中にユーザーの個人データやユーザーインタラクションを使用しないことを確認しています。同社は、個人情報をフィルタリングして削除し、不適切または有害な素材を回避するためにさまざまな対策を講じています。
論文のほとんどは、Applebotが「ノイズ」に満ちたインターネット(無効なデータやスパム)から関連性のある高品質のデータを取得するためにどのように取り組んでいるかを説明しています。しかし、Appleはまた、Webサイトで一般的に使用される robots.txt プロトコルに従うことによって、著作権と倫理へのコミットメントを強調しています。
robots.txt プロトコルを使用すると、パブリッシャーは、AIモデルのトレーニングに使用されるものを含め、Webウィングがアクセスできないページやサイトの一部を指定できます。Appleは、このルールを尊重し、パブリッシャーにApplebotがアクセスできるコンテンツの詳細な制御を提供しながら、SiriとSpotlightの検索結果にページを表示すると述べた。
一方、OpenAIなどの他の多くのAI企業は、倫理基準に従っていると主張しているにもかかわらず、 robots.txt の遵守を明示的に保証していません。市場分析会社TollBitによると、2025年第1四半期には、AI企業によるデータ収集(スクラップ)活動が robots.txt のルールを無視し、2024年の第4四半期の3.3%から約13%増加しました。
これは、利用可能なインターネットがすでにスクラップされているため、同社はプロセスを継続している可能性があります。2025年6月でさえ、米国の地方裁判所は、AIトレーニングのデータ収集は合法であると裁定しました。
Applebot を含む各 Web ウィンドウは、サイトにアクセスするときに識別します。サイトが Applebot を認識していない場合、Applebot は代替標準として Googlebot に適用されるルールに従います。
BBCのような一部の主要なパブリッシャーは、OpenAIやCommon CrawlなどのAIアクセスをサイトでブロックしています。1,156のニュースパブリッシャーを対象とした調査では、そのうち626がAIによるデータ収集をブロックしていることがわかりました。
Appleが購入すると予想される Perplexity.ai のようなケースもあり、Appleも倫理的なAIであると主張している。しかし、Perplexityはかつて許可なくデータを取得したとして非難され、そのCEOは彼らのシステムが完璧ではなかったことを認めました。
全体として、これまでAppleはAIトレーニングで倫理や著作権を侵害したとして合法的に告発されたことは一度もありません。これは、訴訟に直面しているOpenAIとMicrosoft、および批判されたPerkecityとは異なります。
ただし、これはパブリッシャーがデータを使用した大規模な言語モデルトレーニングに完全に満足していることを意味するものではありませんが、これまでのところAppleはAIトレーニングを法的および倫理的に一貫して実施している唯一の企業であるようです。
The English, Chinese, Japanese, Arabic, and French versions are automatically generated by the AI. So there may still be inaccuracies in translating, please always see Indonesian as our main language. (system supported by DigitalSiber.id)