Cloudflare renforce la protection contre les bots IA avec la nouvelle fonction de blocage du « Web Scraping »

Info Cloud

X (Twitter) Facebook Pinterest LinkedIn Email

Cloudflare a lancé un nouvel outil gratuit conçu pour protéger ses clients contre le ‘web scraping’ effectué par des robots d’Intelligence Artificielle (IA). Cette mesure vise à empêcher que ces robots collectent des données de sites web et contribue ainsi à un Internet plus sûr pour les créateurs de contenu.

Une réponse à la demande croissante de données pour l’IA générative

L’essor de l’IA générative a considérablement augmenté la demande de données pour entraîner des modèles et effectuer des inférences. Pour répondre à cette demande, de nombreux robots ont recours au ‘web scraping’, un processus qui consiste à extraire le contenu HTML de sites web pour le stocker et l’utiliser dans la formation d’algorithmes d’IA.

Bien que le ‘web scraping’ soit légal, son utilisation excessive et peu transparente par certains robots a suscité des inquiétudes parmi les propriétaires de sites web. Cloudflare a répondu à ce problème en intégrant une nouvelle fonction à son service de sécurité Internet qui bloque automatiquement les robots d’IA spécialisés dans le ‘web scraping’.

Nouvelle fonction de sécurité pour bloquer les robots d’IA

L’outil de Cloudflare, disponible pour tous les clients, y compris ceux qui utilisent le niveau gratuit de leurs services, cherche à fournir un contrôle supplémentaire sur l’accès aux données. Pour l’activer, les utilisateurs doivent se rendre dans le menu ‘Sécurité’ de leur tableau de bord, sélectionner ‘Bots’ et activer l’option ‘Éraflures et traqueurs d’IA’. Une fois activée, la fonction commencera à bloquer les tentatives de ‘web scraping’ effectuées par ces robots.

Cloudflare a conçu cet outil avec la capacité de se mettre à jour automatiquement pour inclure de nouvelles empreintes de robots contrevenants, assurant ainsi une protection continue contre les méthodes de collecte de données émergentes.

Données révélatrices sur l’utilisation des robots d’IA

Selon les données fournies par Cloudflare, les robots d’IA sont extrêmement actifs sur le web. Le Bytespider de ByteDance, l’Amazonbot d’Amazon, le ClaudeBot de Claude et le GPTBot d’OpenAI figurent parmi les plus actifs sur leur plateforme. Bytespider mène la liste avec des tentatives d’accès à 40,40% des sites clients, suivi de GPTBot avec 35,46%. ClaudeBot, quant à lui, a tenté d’accéder à 11,17% des sites.

Ces chiffres soulignent la prévalence et l’impact des robots d’IA dans la collecte d’informations, mettant en lumière l’importance de mesures efficaces pour protéger les données des sites web.

Un problème en expansion

En juin de cette année, il a été identifié que les robots d’IA avaient accédé à 39% du million de principaux sites web protégés par Cloudflare. Cependant, seulement 2,98% de ces sites avaient pris des mesures pour bloquer ces requêtes à ce moment-là.

Cloudflare reste engagée dans sa mission de maintenir la sécurité sur Internet et de garantir que les créateurs de contenu aient le contrôle sur la façon dont leur matériel est utilisé pour entraîner des modèles d’IA. La société note également que d’autres plateformes, comme Reddit, adoptent des mesures similaires, telles que la mise à jour de leurs Protocoles d’Exclusion de Robots pour limiter l’accès automatisé aux données publiques.

En résumé, en mettant en œuvre cette nouvelle fonction, Cloudflare renforce son rôle dans la protection de la confidentialité et de la sécurité des données sur le web. En fournissant aux clients un outil efficace pour bloquer les robots d’IA, l’entreprise aide non seulement à préserver l’intégrité du contenu en ligne, mais contribue également à un Internet plus sûr et plus respectueux des droits des créateurs.