Cloudflare a annoncé la bêta privée d’AI Index, un index web nouvelle génération pour les domaines qui promet d rendre le contenu découvrable pour l’IA tout en permettant le contrôle de l’éditeur. Il offre également aux constructeurs d’IA un accès structuré, en temps réel et équitable. L’idée est aussi simple qu’ambitieuse : si la web de demain est consultée par des agents et des modèles, les sites doivent pouvoir décider comment leur contenu est accessible, avec des règles claires et la possibilité de monétiser. De plus, les équipes d’IA doivent pouvoir s’abonner aux changements « d’origine » sans gaspiller de ressources dans des rastrements indiscriminés.
Avec AI Index activé, Cloudflare crée automatiquement un index optimisé pour l’IA du domaine (propriété du propriétaire), expose des API standards prêtes à l’emploi —MCP server, LLMs.txt, LLMs-full.txt, Search API, Bulk Data API et un canal pub/sub— et l’intègre avec AI Crawl Control pour suivre les accès, définir des permissions, établir des politiques et, si désiré, facturer l’accès via Pay per crawl et de nouvelles intégrations x402. Concernant les index individuels, la société construira une couche agrégée —Open Index— qui regroupe les sites participants pour des recherches plus étendues sans que chaque web perde contrôle ni la possibilité de participer par contribution.
Pourquoi maintenant : du web « traqué » au web « abonné »
Les chatbots, agents et expériences de recherche générative sont devenus une voie principale de découverte d’informations. Le problème : le flux actuel dépend principalement de rastérisations à l’aveugle, avec des politiques variées et un contrôle limité de la part des créateurs. Les éditeurs n’ont pas de moyen efficace de signaler les changements aux fournisseurs d’IA ; et, pour les équipes qui entraînent ou alimentent des modèles, recrawling de contenu non structuré coûte du temps et de l’argent, sans visibilité préalable sur la qualité ni le coût.
Cloudflare propose une nouvelle approche : passer du crawling indiscriminé à un pub/sub autorisé. Les sites qui le souhaitent font le choix du opt-in, exposent un index structuré, publient des événements de mise à jour lorsque leur contenu change, et définissent des règles et des prix. Au lieu de « gratter » tout le web, les constructeurs d’IA découvrent des domaines avec un index actif, évaluent les métadonnées (ex., unicité, profondeur, relevance contextuelle, popularité), paient pour l’accès lorsque nécessaire, et s’abonnent aux changements pour obtenir des données fraîches sans recrawling constant.
Ce que propose AI Index lors de son activation sur un domaine
Lorsque un client de Cloudflare intègre ou active cette fonctionnalité sur un domaine existant, la plateforme construit et maintient un index optimisé pour l’IA de ce site. Le processus repose sur la même technologie que Cloudflare AI Search (anciennement AutoRAG) et intègre le connecteur site web comme source de données :
- Traitement en temps réel des pages nouvelles ou mises à jour, avec gestion automatique du stockage, des embeddings, du chunking, des modèles et des ressources de calcul.
- Contrôle granulaire d’inclusion/exclusion : l’éditeur décide ce qui entre, ce qui reste hors, qui peut accéder et comment. La désactivation totale de l’index est possible à tout moment.
- APIs standards pour un usage immédiat :
- MCP Server (Model Context Protocol) : les agents peuvent s’y connecter directement et de manière standard. Supporte notamment NLWeb tools (standard ouvert pour des requêtes en langage naturel sur les sites).
- Search API : résultats JSON structurés avec pertinence.
- LLMs.txt et LLMs-full.txt : fichiers standard offrant aux modèles un carte lisible machine du site au moment de l’inférence (Cloudflare publie déjà un exemple dans sa documentation).
- Bulk Data API : ingestion massive de contenu selon les règles de l’éditeur, évitant de multiples lectures document par document.
- Pub/Sub : abonnements aux événements et payloads de changements en temps réel pour que les fournisseurs restent à jour sans recrawling constant.
- Directives de découvrabilité : entrées dans robots.txt et .well-known pour que les agents et crawlers reconnus découvrent et utilisent automatiquement ces APIs.
L’index s’intègre avec AI Crawl Control, permettant de visualiser les accès, les politiques et permissions. Il est également complété par Pay per crawl et x402 pour une monétisation directe. Le propriétaire du site reste en contrôle permanent sur qui, comment et combien.
Pour les constructeurs d’IA : une feed authorisé du web
Les créateurs d’agents ou plateformes IA pourront découvrir et s’abonner à des données web de haute qualité avec permission expresse via des index individuels :
- Découvrir les sites ayant choisi d’exposer leurs index (répertoire navigable avec filtres).
- Évaluer le contenu avant accès (métadonnées : unicité, profondeur, pertinence, popularité).
- Payer un prix juste pour l’accès (Pay per crawl) lorsque le contenu le justifie, avec une circulation des revenus vers le créateur.
- S’abonner aux changements pour recevoir des événements en temps réel et éviter le recrawling.
Ce processus réduit les coûts (moins de rastérisation, moins de duplication), accélère le traitement (seules les modifications sont traitées), améliore la qualité (données structurées) et respecte la volonté de l’éditeur. L’accès reste sous le contrôle du propriétaire du domaine.
Open Index : recherche unifiée à grande échelle (avec contrôle et revenu descendus)
Gérer des dizaines ou centaines d’abonnements par site peut devenir complexe quand il faut rechercher à grande échelle. Pour cela, Cloudflare lancera Open Index, une collection agrégée et opt-in d’index individuels accessible depuis un seul endroit :
- Accès unifié : consulter et récupérer des données de nombreuses web participantes simultanément; utile comme couche de recherche web prête à l’emploi et comme collection sélectionnée.
- Thèmes : en paquets par nouvelles, documentation, recherche scientifique, etc., ou un index général pour exploration large.
- Monétisation croissante : les résultats proviennent d’index de sites individuels, et la rémunération reflue vers chaque site avec Pay per crawl.
Les constructeurs choisissent alors : précision et texte complet avec des index par site (pour formation, agents, expériences de recherche), ou couvrir large avec Open Index quand ils ont besoin de grande échelle et de découverte rapide.
Quels bénéfices pour chaque acteur
Créateurs et éditeurs de contenu
- Contrôle total : décider ce qui est exposé, à qui, avec quelles conditions et comment auditer les accès.
- Visibilité : passage direct pour que agents et LLMs découvrent et utilisent leur contenu de façon standardisée.
- Revenus : Pay per crawl/x402 pour monétiser l’accès sans dépendre d’accords opaques.
Constructeurs d’IA (éqpues, plateformes, intégrateurs)
- Qualité et fraîcheur : abonnements pub/sub aux changements structurés, moins de bruit et de recrawling.
- Efficacité : coûts moindres par requête, prévisibilité de qualité et prix par source.
- Conformité : relation directe avec le propriétaire du site, avec permissions explicites et traçabilité.
Écosystème
- Passage de « rastériser tout et voir ce qui tombe » à se connecter à des sources qui participent; du « usage présumé » à accès permissionné et rémunéré. Un cadre plus sain pour la web générative.
Fonctionnement en pratique (vue du flux)
- Onboarding : le propriétaire du domaine active AI Index depuis Cloudflare.
- Construction de l’index : le système traite le site (avec la technologie AI Search), crée des embeddings et des APIs (MCP, Search, Bulk, LLMs.txt, pub/sub), et applique AI Crawl Control.
- Règles et monétisation : l’éditeur définit inclusions/exclusions, permissions, tarifs et x402.
- Découverte : les constructeurs trouvent le domaine dans le répertoire, examinent métadonnées et s’abonnent (ou consultent).
- Mises à jour : le site envoie des événements en temps réel; le fournisseur consomme le bulk ou lance une requête; si nécessaire, paie pour l’accès et trace.
- Regroupement : l’éditeur peut opter pour Open Index pour plus de découvertes tout en conservant contrôle et rémunération.
Questions fréquentes
Est-ce obligatoire d’activer AI Index pour utiliser Cloudflare ?
Non. C’est une option volontaire. L’éditeur choisit de l’activer, détermine quels contenus indexer, et peut désactiver la fonction à tout moment.
Quels standards supporte pour agents et LLMs ?
Inclut MCP (Model Context Protocol) pour connexion directe d’applications agentiques, supporte NLWeb tools (standard ouvert pour requêtes en langage naturel), fichiers LLMs.txt/LLMs-full.txt pour une carte lisible par machine durant l’inférence, et des directives de découvrabilité dans robots.txt et .well-known.
Comment se gère la monétisation et la traçabilité des accès ?
Avec Pay per crawl et x402 il est possible de facturer l’accès. AI Crawl Control permet l’audit, la définition de règles, et la gestion des permissions. Les revenus sont redistribués au site d’origine, même si l’accès est via Open Index.
Quels sont les avantages du modèle pub/sub face au rastérage traditionnel ?
Il réduit les coûts et la latence : le fournisseur reçoit des événements structurés lorsque le contenu change, sans recrawls périodiques qui gaspillent CPU et surcharge les serveurs. Il facilite aussi des métriques de qualité (unicité, profondeur, pertinence) avant d’acheter l’accès.
Un site peut-il exiger des règles ou retirer son contenu ?
Oui. L’éditeur contrôle les politiques (ce qui, qui, comment, combien), et peut opt-out totalement. L’accès demeure toujours à la discrétion du propriétaire du domaine.
Prochaines étapes et participation
Cloudflare commence avec une bêta privée. Les éditeurs souhaitant activer AI Index ainsi que les constructeurs intéressés par le feed (indices par domaine ou Open Index) peuvent s’inscrire dès aujourd’hui pour être pris en compte. La vision : un web où les sites décident comment leur contenu alimente l’IA, et où les agents reçoivent données fiables, structurées et permissionnées.
Contexte : Cloudflare inscrit AI Index dans son connectivity cloud, une plateforme qui protège les réseaux d’entreprises, accélère les applications à l’échelle Internet, mitige les DDoS, bloque les intrusions et facilite la transition vers le Zero Trust. Avec AI Index et Open Index, la société soutient un écosystème plus juste entre créateurs, modèles et agents.
Foire aux questions
Qu’est-ce précisément que LLMs.txt et comment se différencie-t-il de robots.txt ?
LLMs.txt (et LLMs-full.txt) sont des fichiers lisibles par machine qui décrivent la façon dont un LLM doit utiliser le contenu du site lors de l’inférence (par ex., chemins pertinents, formats, limites). Robots.txt oriente le rastérage, alors que LLMs.txt oriente la consommation par les modèles.
Je peux utiliser l’index pour améliorer la recherche interne de mon site ?
Oui. L’index du domaine — propriété de l’éditeur — peut être utilisé pour des expériences modernes de recherche sur le site lui-même, en plus de fournir des API standardisées pour des agents externes.
Comment les fournisseurs d’IA sauront-ils que mon site offre AI Index ?
Via des directives de découvrabilité dans robots.txt et des routes .well-known, ainsi que par le répertoire de sites qui optent pour publier leur index. Les agents MCP peuvent aussi découvrir automatiquement le point de terminaison.
Que faire si je change d’avis concernant la monétisation ou l’accès ?
Les politiques étant dynamiques, l’éditeur peut ajuster, révoquer ou arrêter ses règles et permissions. La priorité : que le contrôle reste entre les mains du propriétaire du domaine.
Comment garantir la confidentialité et le respect des réglementations ?
L’éditeur décide ce qu’il indexe et exclut. L’accès se gère par politiques, permissions et audit (AI Crawl Control). Pour des données sensibles ou réglementées, il est conseillé de filtrer/exclure et de définir des conditions strictes pour l’accès et l’usage.
source : blog.cloudflare