rénal sur les réseaux sociaux : Lutte contre le scrapage d’IA avec une

ARTA - Les éditeurs de médias dans différentes parties du monde ne jouent plus de manière polie dans le scrapage d'IA — une pratique dans laquelle les robots d'intelligence artificielle prennent des articles et des données sans autorisation pour former leurs modèles. Après des années seulement appuyant sur le fichier robots.txt comme une « page polie » sur Internet, les éditeurs se sont tournés vers des stratégies techniques agressives qui ressemblent à une cyberguerre.

robots.txt n’était qu’un «please don’t » - une demande facile à ignorer par de nombreux scrapers. En conséquence, un marché noir apparaît pour les services de scrape tiers capables même de pénétrer les parois payables et de copier du contenu d’actualités de qualité supérieure. De nombreux grands modèles d’IA ont ensuite profité de ces résultats volés pour répondre aux questions des utilisateurs comme s’ils avaient des données d’actualités « en direct ».

cées sont réelles et significatives pour les éditeurs. Wikipédia a signalé une augmentation de 50% de sa consommation de bande passante en raison d’une attaque automatique de scraper. Non seulement draine le serveur, mais réduit également le trafic directement vers le site, car les lecteurs obtiennent désormais des résumés d’informations d’IA sans ouvrir la source originale.

in (IETF) a formé un groupe de travail sur la préférence de l'IA (AIPREF) — une équipe technique qui développe un nouveau système afin que le site puisse désigner expressément son contenu comme « interdit » pour la formation à l'IA. L'objectif : remplacer « s'il vous plaît » par « cela est techniquement interdit ».

Cependant, avant la fin de la nouvelle norme, les éditeurs commencent à construire leurs propres “armes” :

Tarpits AI, un labyrinthe numérique qui piègne les traîneurs d’IA dans des boucles sans fin contenant des fichiers statiques, leur manquent de ressources informatiques. Certains ajoutent même des « pots-de-poison » sous la forme de données aléatoires pour endommager les modèles de voleurs d’IA.

de travail, ressemblant à un projet de travail inversé, oblige les machines des visiteurs à résoudre des casquettes cryptographiques lourdes avant d’accéder au site. Pour les robots à grande échelle, ce coût de calcul rend le scrapage économique impossible.

d’infrastructure, Cloudflare, est désormais en baisse. Après avoir précédemment offert une option de « désactivation », Cloudflare bloque désormais automatiquement les bots d’IA. Cette décision a été chaleureusement accueillie par les géants des médias tels que l’Associated Press, The Atlantic et Condé Nast. Non seulement cela, Cloudflare a introduit AI Labyrinth, un système piège qui laisse le bot se perder dans la page de pompage faite par l’IA pour perdre du temps et de leur puissance de comptage.

cottes entre les éditeurs et les entreprises d'IA ressemble de plus en plus à une guerre froide numérique - une partie construit des modèles intelligents grâce au contenu, tandis que l'autre se propage au piège pour protéger son travail journalistique. Le monde du web semble entrer dans un nouveau chapitre où l' "intelligence artificielle" doit d'abord apprendre l'appropriation du contenu.

The English, Chinese, Japanese, Arabic, and French versions are automatically generated by the AI. So there may still be inaccuracies in translating, please always see Indonesian as our main language. (system supported by DigitalSiber.id)

Tag: artificial intelligence media cloudflare