Une année, trois fois plus de bots alimentés par l’IA. C’est le constat du dernier State of the Internet (SOTI) d’Akamai: la croissance des bots utilisant l’intelligence artificielle atteint un 300 % d’augmentation annuelle et ils génèrent déjà des milliards de requêtes contre des sites de toutes industries. Selon la société, ce phénomène n’est pas marginal : ils déforment les opérations et l’analyse, érodent les revenus publicitaires et mettent à l’épreuve la sécurité dans les publications numériques, le commerce électronique, la santé et les services financiers.
Akamai résume sans détour : « La montée des bots IA est passée d’un enjeu de sécurité à une priorité stratégique pour le conseil d’administration », déclare Rupesh Chokshi, vice-président senior et directeur général de la Sécurité des Applications.
Ce constat est étayé par des chiffres et un contexte précis. La société — qui gère plus d’un tiers du trafic web mondial via son réseau — a observé une explosion du scraping automatisé à grande échelle, mais aussi du fraude basée sur des modèles génératifs: usurpations d’identité, ingénierie sociale plus crédible, campagnes de phishing plus efficaces, documents ou images falsifiés de qualité professionnelle. Tout cela évolue parallèlement dans un écosystème où cohabitent bots “utiles” (indexation, accessibilité) et bots “malsains” (FraudGPT, WormGPT, publicité frauduleuse, fraudes liées aux retours…).
Ce qui se passe (et où cela frappe le plus)
Le rapport Digital Fraud and Abuse 2025 dresse un profil type : l’IA réduit les coûts et accélère tant le scraping que l’automatisation de l’abus. Quiconque possède des connaissances de base peut assembler, à partir de bibliothèques ouvertes et de services cloud, un bot capable de passer outre les défenses de première génération, de faire tourner les identités et d’agir à un rythme de millions de requêtes.
Principaux enseignements par secteur :
- Médias et publishing: secteur le plus touché, représentant 63 % des requêtes attribuées aux bots IA. Les rédactions subissent copie systématique de titres, images et articles ; les plateformes analytiques sont corrompues et l’inventaire publicitaire perd en valeur lorsque du trafic non humain s’ajoute.
- Commerce électronique: en tête des activités de bots avec plus de 25 milliards de requêtes en deux mois. Au-delà du simple scraping de prix et de stocks ; on assiste aussi à du remplissage de paniers, des abus sur les coupons, du fraude lors des retours et du scalping lors de lancements.
- Santé: plus de 90 % des requêtes dans le secteur proviennent de scraping, principalement de bots de recherche et de formation. Le risque n’est pas uniquement économique : il s’agit aussi d’accéder à des données sensibles ou de laisser des empreintes facilitant de futures intrusions.
- Vue d’ensemble transversale: bots “utiles” et campagnes malveillantes coexistent, dégradant les performances, gonflant les coûts d’infrastructure et biaisant les métriques critiques (sessions, conversions, funnels). La frontière devient de plus en plus difficile à tracer si l’organisation ne dispose pas d’un inventaire, de la télémétrie et d’une gouvernance de ses bots.
Fait surprenant : malgré sa croissance 300 %, les bots IA représentent encore “moins de 1 %” du trafic de bots observé par Akamai. Ceci indique que la qualité, plus que la quantité, demeure la principale menace : quelques bots finement orchestrés peuvent provoquer un impact démesuré.
Pourquoi les bots IA sont-ils différents (et plus complexes)
1) Évasion par conception. La nouvelle génération imite les gestes humains: mouvements et temps de souris, changements de contexte, scroll aléatoire, séquences de lecture plausibles. Elle rotationne aussi les identités (navigateurs, fingerprints, IP et ASN) et mélange les parcours (web, API, mobile) pour brouiller les pistes.
2) “Compréhension” du site. Grâce à des modèles qui “lisent” le DOM ou les images, bots peuvent interpréter les interfaces, résoudre des captchas faibles, comprendre les flux de paiement ou de formulaires et dénicher des raccourcis non documentés.
3) Automatisation sans friction. L’ensemble — découverte, instruction, exécution, affinage — peut s’automatiser avec l’IA, multipliant la performance des acteurs malveillants et réduisant les cycles d’essais et d’erreurs.
4) Coût marginal réduit. Avec une infrastructure serverless, des réseaux de proxies commerciaux et des modèles hébergés par des tiers, lancer une attaque coûte peu et peut se scaler efficacement. Parfois, le coût de la défense dépasse celui de l’attaque.
Impacts business: de l’indicateur contaminé à l’euro non perçu
- Analyse déformée: funnels et KPI deviennent peu fiables ; décisions produit ou marketing s’appuient sur des données contaminées.
- Publicité fragilisée: la proportion de trafic invalide augmente ; impressions et clics non humains réduisent le eCPM et le ROI.
- Performance et coûts: les pics de bots gonflent l’usage de CPU, de bande passante et de stockage ; on paie pour des instances et une CDN pour servir des non-personnes.
- Sécurité et fraude: augmentation des usurpations crédibles, création de faux documents convaincants, campagnes de phishing ultra-personnalisées, et fraude à l’identité échappant aux contrôles faibles.
- Image de marque et conformité: scraping non contrôlé viole souvent les termes d’usage ; une réponse inadéquate peut entrer en conflit avec la confidentialité ou la concurrence.
Ce qu’Akamai recommande : trois cadres OWASP et une priorisation intelligente
Le rapport conseille d’aligner les capacités avec les trois OWASP Top 10 en vigueur :
- Applications web (risques comme Broken Access Control, Injection, fuite de données sensibles).
- APIs (Broken Object Level Authorization, Configuration de sécurité incorrecte, exposition excessive de données, etc.).
- LLMs (nouveau cadre pour abus spécifiques à l’IA : injection de prompts, exfiltration de données via les sorties, dénégation de modèle, dépendance excessive aux LLM…).
L’objectif n’est pas simplement “installer un outil”, mais cartographier les vulnérabilités connues selon le profil de risque de chaque entreprise et prioriser les défenses de manière stratégique : quels actifs (page, API, endpoint IA) ont de la valeur, quels attaques sont fréquentes et quels contrôles réduisent le plus le risque pour chaque euro investi.
Mesures concrètes efficaces (et pourquoi)
1) Gestion dynamique des bots avec liste blanche et signaux client
- Classez les bots “bons” (indexation, accessibilité) et verrouillez ceux inconnus.
- Vérifiez le client avec signaux de faible friction : tests passifs, intégrité du navigateur, JA3/JA4, empreinte TLS, attestation de device si possible.
- Diffusez contenu de leurre (marques invisibles) pour détecter la republication et formation non consentie.
2) Protégez les API comme si elles étaient en front
- Contrôle d’autorisation par objet (BOLA) et gestion de l’exposition excessive.
- Quotas et rate-limiting adaptatifs selon l’identité, ASN, score de risque.
- Honeypots d’API (endpoints pièges) pour identifier les clients abusifs.
3) Installer des garde-fous d’IA pour les prompts, modèles et sorties
- Filtrer et classer les données sensibles avant leur entrée dans les prompts ; empêcher leur sortie (DLP double sens).
- Isoler les agents et outils (principe du moindre privilège) ; limiter leurs actions et exiger de fortes confirmations pour les opérations critiques.
- Monitorer : enregistrer prompts, contexte, outils et sorties avec métadonnées pour audit et forensic.
- Évaluer : réaliser des red teaming automatisé contre prompts, RAGs et serveurs MCP avant mise en production.
4) Renforcer la résilience contre le scraping (au-delà du robots.txt)
- Aspect légal + technique : termes d’utilisation et en-têtes “noai”/“noscrape” accompagnés de contrôles effectifs.
- Contenus dynamiques : pages qui obligent à exécuter du code client (sans nuire à l’accessibilité ou SEO).
- Tarification et gating: stratification des données, paiement par API et licences explicites pour l’entraînement.
5) Opération basée sur la donnée
- Telemetrie unifiée (web, API, mobile, IA) et tableaux de bord consolidés pour distinguer trafic humain et automatisé.
- Équipes alignées : sécurité, produit, croissance et pub partagent les mêmes chiffres, avec runbooks pour gérer les pics de bots.
Signes indiquant que votre site souffre d’un problème de bots avec IA
- CTR anormal avec des rebonds très faibles ou des temps de séjour irréalistes.
- Picos nocturnes dans des régions sans économie locale, avec des IP rotatives et des ASN suspects.
- Requêtes API massives sur des listes ou endpoints de recherche, sans correspondance avec le trafic web.
- Répétition de prompts ou d’appels MCP épuisant les quotas sans créer de valeur.
- Re-publication de contenus avec des marques invisibles détectées.
Ce que chaque secteur peut faire aujourd’hui
Médias : activez contenu de leurre, fermez les API ouvertes de contenu et licenciez l’utilisation pour l’entraînement quand cela est stratégique. Mettez en place des tableaux séparés pour distinguer humain/non humain dans la régie publicitaire.
Commerce : protégez prix/stocks avec des quotas et des risk scores; maintenez des listes dynamiques de bots autorisés; renforcez la lutte contre fraude aux retours et abus de coupons.
Santé : limitez la surface d’exposition au scraping (catalogues, contenus médicaux); enregistrez tout accès automatisé; vérifiez que les modèles d’IA ne divulguent pas d’informations PHI.
Finances : mettez en œuvre du device binding et des tests passifs renforcés ; surveillez les bots remplissant des formulaires pour ouvrir la voie au phishing ultérieur.
Conclusion : de “bloquer les bots” à “gérer” l’IA
Le web est né ouvert ; l’IA l’a rendue plus précieuse et aussi plus vulnérable. Le message du SOTI est clair : les listes noires et les captcha ne suffisent pas. Il faut gouverner l’IA — ce qui entre dans les modèles et prompts, ce qui en sort, qui y accède et pour quoi— et gérer les bots comme un produit : inventaire, métriques, SLO et playbooks.
Agir rapidement permettra de protéger ses revenus, de nettoyer l’analyse et d’éviter que l’avenir de votre business soit écrit par des bots qui ne payent pas l’addition.
Questions fréquentes
Qu’est-ce qu’un bot de scraping IA et comment le différencier d’un bot classique d’indexation ?
Un bot de scraping IA utilise des modèles pour interpréter les pages et automatiser l’extraction de données à grande échelle, éludant les contrôles basiques (rotation d’identités, temps simulés, captcha faible). Contrairement à un indexeur légitime (Google, Bing), il ne respecte pas systématiquement le robots.txt, les conditions d’utilisation ou offre pas toujours un trafic de qualité, et cible souvent des contenus complets, catalogues ou ensembles massifs pour entraînement.
Comment appliquer le OWASP Top 10 pour les LLM dans mon entreprise si j’ai déjà un WAF et une gestion des bots ?
L’OWASP Top 10 pour les LLM complète (sans remplacer) la sécurité web et API. Ajoutez des contrôles spécifiques: filtrage et marquage des données sensibles dans les prompts et sorties ; guardrails pour les agents et MCP ; enregistrement des prompts, contextes, outils ; red teaming automatisé dans la CI/CD (injections, jailbreaks, exfiltrations). Priorisez selon le risque lié à chaque cas d’usage (par exemple, RAG avec données internes vs assistant public).
Comment laisser passer les bots “bons” tout en bloquant les “mauvais” sans nuire au SEO ni à l’accessibilité ?
Mettez en place des listes blanches avec vérification client (signatures agent, JA3/JA4, intégrité navigateur, ASN), quotas et routages dédiés (web vs API). Maintenez un catalogue à jour des bots agréés (indexation, accessibilité) et appliquez des défis passifs et des limitations pour les autres. Un allowlist bien gérée favorise le SEO, pas un “tout autorisé”.
Puis-je bloquer légalement les bots d’entraînement IA ?
Consultez votre conseil juridique : le robots.txt n’est pas contraignant en soi. Combinez termes d’usage, métadonnées “noai”/“noscrape”, licences et contrôles techniques (blocage, limiteur de débit, contenu de leurre). Documentez et notifiez les conditions d’accès ; de nombreux fournisseurs d’IA respectent ces signaux lorsque la posture est claire et qu’un cadre de licence est en place.