Partager:

JAKARTA - Des récents rapports révèlent qu’Apple a utilisé des vidéos YouTube pour entraîner son modèle d’IA, Apple Intelligence. Cela serait une violation de la politique de contenu de la plate-forme.

Une enquête menée par Proof News, publiée avec Wired, indique qu’Apple et plusieurs autres entreprises technologiques, dont Nvidia et Anthropic, utilisent des données disponibles au public générées par les utilisateurs pour entraîner leurs modèles d’IA.

Selon l’enquête, Apple a utilisé un ensemble de données appelé YouTube Subtitles qui comprenait des transcription de 173 536 vidéos YouTube de plus de 48 000 canaux. Les vidéos du groupe de données comprennent divers types de contenus, allant des canaux éducatifs tels que l’Académie Khan et le MIT, aux sites d’informations tels que The Wall Street Journal, ainsi que certains des créateurs de premier plan de la plate-forme tels que MrBeast et Marques Brownlee.

Marques Brownlee a déclaré qu’Apple avait techniquement esquivé les erreurs parce qu’elle avait obtenu leur AI d’une entreprise qui utilisait des transcription de vidéos YouTube, plutôt qu’une utilisation directement de ces données. Cependant, ces données et ces transcription continuent de contribuer au modèle d’IA, dans lequel les créateurs ont investi leur temps et leur argent. Brownlee a conclu qu’il s’agira d’un problème qui continue de croître sur le long terme.

Proof News crée également un outil permettant aux créateurs de rechercher leur contenu dans le groupe de données. Le groupe de données YouTube Subtitles ne comprend pas des images de vidéos, mais comprend plusieurs sous-titres traduits dans diverses langues. Ce groupe de données aurait été créé par un laboratoire de recherche à but non lucratif nommé Elevik AI, qui se concentre sur la promotion des normes de science ouverte.

Aucune entreprise mentionnée dans ce rapport n’a immédiatement commenté ce sujet. Le PDG de YouTube, Neal Mohan, a clairement déclaré dans une interview que les entreprises qui utilisent des vidéos YouTube pour former leurs modèles d’IA constituaient une « violation claire » des politiques de la plate-forme.


The English, Chinese, Japanese, Arabic, and French versions are automatically generated by the AI. So there may still be inaccuracies in translating, please always see Indonesian as our main language. (system supported by DigitalSiber.id)