Perplexity AI est accusé de dissuasion de robots.txt et de continuer à scraper les données

ARTA - La société AI Perplexity est à nouveau sous les projecteurs après que de récents rapports aient montré qu’elle continue de scrapager agressivement les données des sites Web et d’ignorer les règles de robots.txt, bien qu’elles aient été averties depuis 2024.

selon, une nouvelle plateforme par Cloudflare utilise une technique de plus en plus sophistiquée pour accéder à des données du site Web qui interdisent explicitement aux robots de naviguer. Même lorsque le bot principal de Perplexity est bloqué par robots.txt, l’entreprise aurait envoyé de nouveaux bots avec un agent utilisateur différent, une adresse IP et un ASN (Autoomomous System Numéro) pour éviter la détection et conserver l’accès au contenu protégé.

Cloudflare a effectué le test en créant un nouveau site qui n’a jamais été accessible par personne. Après avoir ordonné à Perplexity AI de rechercher des informations sur le site, il a été découvert que les informations exclusives qui se trouvaient uniquement sur la page apparaissaient dans la réponse de Perplexity — une forte indication qu’elles avaient réussi à contourner l’interdiction de robots.txt par des moyens non transparents.

alphabétisation : la complexité se défend

rénal, en réponse au rapport, Perplexity a publié un article sur son blog officiel défendant sa pratique. Ils affirment que leurs « scrapers Web » et « agents d’IA » sont des entités différentes, accusant Cloudflare de ne pas faire de différence entre les deux. Ils font même mention que Cloudflare menace l’ouverture du Web.

, mais cette défense a été critiquée par la communauté technologique. De nombreuses parties considèrent la raison de Perplexity comme un « jeu de mots » qui n’est pas pertinent pour l’essence du problème. Le site s’empare entièrement du droit de décider qui peut accéder au contenu, et la règle de robots.txt est une forme d’accord éthique entre le propriétaire du site et le navigateur.

« Si tous les sites humains se ferment parce que leur circulation est aspirée par le chat bots, alors, en fin de compte, AI comme Perplexity n’auront plus quoi lire », a écrit un observateur.

Apple, Google et OpenAI respectent robots.txt

anity, Apple, Google, ChatGPT (OpenAI) et d’autres grandes entreprises technologiques respectent toujours robots.txt, bien qu’ils n’ont pas de force juridique. Apple lui-même a été mis en évidence lorsqu’il a été révélé que les robots d’Apple sont utilisés pour indexer les données pour la formation à l’intelligence d’Apple. Cependant, Apple a confirmé qu’ils suivaient les règles du robots.txt et n’entraînaient pas les modèles d’IA avec les données personnelles des utilisateurs.

En réponse aux rumeurs selon lesquelles Apple pourrait acquérir Perplexity, cette question pourrait contrecarrer le plan. La réputation de Perplexity en tant qu’entreprise ignorant l’éthique du scrapage pourrait être un gros fardeau pour Apple qui construit l’image en tant que pionnier de l’IA éthique.

menaces pour le Web ouvert

souligne un grand dilemme dans le monde d’Internet moderne : l’IA a besoin de données, mais un site Web a besoin de trafic humain pour survivre. Si le contenu du site est copié par l’IA et présenté sans retourner les utilisateurs vers leurs sources d’origine, un écosystème numérique ouvert pourrait s’effondrer.

rore, parmi les rapports de 404 Media et Ars Technica, on trouve que le trafic humain vers les sites d'informations et les blogs a considérablement diminué alors que les moteurs de recherche et l'IA répondent directement sans amener les utilisateurs à la page source.

“Perplexity est en train de détruire un Web ouvert sous prétexte de justice et de liberté,” a écrit un analyste. “Mais s’il n’y a pas de site humain qui reste, alors l’IA elle-même perdra du carburant.”

, ce débat reflète les tensions entre le besoin d’IA en matière de données et le droit des propriétaires de sites à protéger leurs contenus. Si des entreprises comme Perplexity continuent d’ignorer l’éthique numérique, l’avenir de l’Internet pourrait être un monde dominé par les bots, pas par les humains.

Dans ce contexte, Apple semble avoir besoin de rester à l’écart de Perplexity pour maintenir sa position de pionnier de l’IA responsable et transparente.

The English, Chinese, Japanese, Arabic, and French versions are automatically generated by the AI. So there may still be inaccuracies in translating, please always see Indonesian as our main language. (system supported by DigitalSiber.id)

Tag: cloudflare perplexity data internet