Groupe de droits d’auteur mettez fin aux données de la langue néerlandaise utilisées pour la formation à l’IA
JAKARTA - Le groupe basé aux Pays-Bas de l’application du droit d’auteur, perbIN, a suspendu la distribution d’un ensemble de données largement utilisé pour former des modèles d’intelligence artificielle (IA). Le groupe de données comprend des informations recueillies sans autorisation à partir de dizaines de milliers de livres, de sites d’informations et de sous-titres en néerlandais tirés de divers films et programmes télévisés.
Selon un communiqué publié parbreIN le mardi 13 août, la collecte de données a été effectuée sans le consentement du propriétaire légitime du droit d’auteur. Le directeur de notiIN, Bastiaan van Ramshorst, a déclaré que bien qu’il ne soit pas clair dans quelle mesure le groupe de données a été utilisé par les entreprises d’IA, il cherche à agir rapidement pour éviter d’accusations légales futures.
« C’est très difficile à savoir, mais nous essayons de le faire à temps », a déclaré Van Ramshorst. Il a également ajouté que la prochaine loi européenne sur l’IA obligerait les entreprises d’IA à divulguer des ensemble de données utilisés dans leurs modèles de formation.
Aux États-Unis, OpenAI, soutenu par Microsoft, a fait l’objet de plusieurs poursuites judiciaires, dont un du New York Times, accusant l’utilisation de matériels droits d’auteur pour former des modèles d’IA sans autorisation.
Au Danemark, un groupe de protection des droits d’auteur nommé Danish Rights Alliance a précédemment réussi à arrêter la distribution d’autres grands collectifs de données connus sous le nom de « Books3 » l’année dernière.
La personne qui offre le ensemble de données en néerlandais a accepté les conditions d’ordonnances de cessation et de retrait et a supprimé le groupe de données du site Web où il est disponible pour téléchargement, selon ngoIN. Cette organisation n’a pas révélé l’identité de la personne, compte tenu de la politique néerlandaise sur la protection de la vie privée.
Cette action montre l’importance du suivi et de l’application des droits d’auteur à l’ère numérique, en particulier en ce qui concerne le développement rapide des technologies d’intelligence artificielle qui utilisent souvent de grandes quantités de données pour former leurs modèles.