Partager:

JAKARTA - Plusieurs entreprises d’IA (IA) violent les normes Web courantes utilisées par les éditeurs pour bloquer leur collecte de contenu pour être utilisée dans des systèmes génératifs d’IA. C’est ce qu’a révélé la start-up licence de contenu, TollBit.

Dans une lettre à l’éditeur de vendredi, qui n’a pas nommé la société d’IA ou l’éditeur influencé, cette question s’est posée au milieu d’un différend public entre la start-up de recherche d’IA Perplexity et les médias de Forbes concernant les mêmes normes Web et un débat plus large entre les entreprises technologiques et les médias sur la valeur du contenu à l’ère génératrice de l’IA.

Les éditeurs de médias d’affaires ont publiquement accusé Perplexity d’avoir cité son histoire d’enquête dans un résumé généré par AI sans citer par Forbes ni demander un permis.

Des enquêtes publiées par Wired cette semaine ont révélé que Perplexity pourrait avoir dépassé les tentatives de bloquer ses crawler Web via le protocole d’exclusion de robots, ou « robots.txt », une norme largement acceptée qui détermine quelles parties du site peuvent être fouillées.

News Media Alliance, un groupe commercial représentant plus de 2 200 éditeurs américains, a exprimé ses préoccupations concernant l’impact de l’ignorance des signaux « ne crawl pas » sur ses membres. « Sans la possibilité de se retirer de la collecte de données de masse, nous ne pouvons pas monétiser notre contenu précieux et payer les journalistes. Cela pourrait nuire sérieusement à notre industrie », a déclaré Danielle Coffey, présidente du groupe.

TollBit, une startup de première étape, se positionne comme intermédiaire entre des entreprises d’IA nécessitant du contenu et des éditeurs disposés à conclure des accords de licence avec eux. La société suit le trafic d’IA vers les sites d’éditeur et utilise des analyses pour aider les deux parties à déterminer les coûts pour l’utilisation de différents types de contenu.

Selon une lettre de TollBit, Perplexity n’est pas le seul délinquant qui semble ignorer robots.txt. TollBit a déclaré que ses analyses montraient que « beaucoup » d’agents d’IA franchissent le protocole.

Le protocole robots.txt a été créé au milieu des années 1990 pour éviter le surchargement des sites Web avec des crawler Web. Bien qu’il n’y ait pas de mécanisme d’application de la loi clair, historiquement il y a une conformité généralisée sur le Web, et certains groupes - y compris News Media Alliance - ont déclaré qu’il pourrait y avoir encore des efforts juridiques pour les éditeurs.

Plus récemment, robots.txt est devenu un outil clé utilisé par les éditeurs pour empêcher les entreprises technologiques d’en tirer leurs contenus gratuits pour une utilisation dans des systèmes génératifs d’IA qui peuvent imiter la créativité humaine et résumer immédiatement des articles.

Plusieurs éditeurs, dont le New York Times, ont poursuivi la société d’IA pour violation du droit d’auteur liée à l’utilisation. D’autres ont signé des accords de licence avec des entreprises d’IA prêtes à payer le contenu, bien que ces parties ne soient pas d’accord sur la valeur du matériel. De nombreux développeurs d’IA soutiennent qu’ils ne violent pas la loi pour accéder au contenu gratuitement.

Thomson Reuters, propriétaire de Reuters News, est l’un de ceux qui ont conclu un accord pour licenser le contenu d’actualité à utiliser par les modèles d’IA.

Les éditeurs ont augmenté la vigilance au sujet des résumés de nouvelles depuis que Google a lancé un produit l’année dernière qui utilise l’IA pour créer des résumés en réponse à plusieurs requêtes de recherche. Si les éditeurs voulaient empêcher leur contenu d’être utilisé par l’IA de Google pour aider à produire ces résumés, ils devraient utiliser le même outil qui empêcherait également leur contenu d’apparaître dans les résultats de recherche de Google, ce qui les rende presque invisibles sur le Web.


The English, Chinese, Japanese, Arabic, and French versions are automatically generated by the AI. So there may still be inaccuracies in translating, please always see Indonesian as our main language. (system supported by DigitalSiber.id)