Akamai veut amener l’inférence de l’IA à la périphérie avec 4 400 emplacements

Info Cloud

X (Twitter) Facebook Pinterest LinkedIn Email

Akamai marque une étape importante dans sa stratégie d’Intelligence Artificielle en dévoilant AI Grid Intelligent Orchestration, une nouvelle couche d’orchestration pour l’inférence distribuée. Selon l’entreprise, cette innovation transforme son réseau en la première mise en œuvre à l’échelle mondiale du design de référence NVIDIA AI Grid. Elle s’appuie sur l’infrastructure de Akamai Inference Cloud et le déploiement de milliers de GPU NVIDIA RTX PRO 6000 Blackwell Server Edition, permettant de rapprocher l’inférence des utilisateurs, plutôt que de la concentrer uniquement dans de vastes clusters centraux.

Cette annonce revêt une importance car elle témoigne d’un changement profond du marché. Ces dernières années, la conversation autour de l’IA tournait principalement autour de grandes « usines d’IA » centralisées, optimisées pour l’entraînement et les modèles de pointe. Akamai ne remet pas en question ce modèle, mais souligne que de nombreuses charges réelles d’inférence — notamment celles liées à la vidéo en temps réel, aux agents intelligents, à la personnalisation ou à l’IA physique — nécessitent autre chose : une faible latence, une proximité avec les données et un réseau capable de décider où exécuter chaque requête en équilibrant coût et performance.

De la centrale au edge distribué

La théorie d’Akamai est que l’inférence ne peut plus dépendre exclusivement d’un aller-retour vers un grand cluster distant. Sa nouvelle architecture répartit le traitement entre le edge, des régions intermédiaires et des nœuds centraux, avec un orchestrateur jouant un rôle d’intermédiaire en temps réel pour déterminer où exécuter chaque requête. La société explique que ce « control plane » est conçu pour optimiser ce qu’elle appelle la « tokenomics » : le coût par token, le délai jusqu’au premier token, et le débit global.

Concrètement, cela implique l’utilisation de techniques telles que le cache sémantique, l’affinité de modèle et le routage intelligent pour réserver les GPU les plus coûteuses aux charges qui en ont réellement besoin, tout en déléguant d’autres requêtes à des ressources plus adaptées. Sur sa page officielle, Akamai précise que sa plateforme combine également inférence, réseau et sécurité en une couche distribuée unique, avec des contrôles spécifiques pour les modèles, agents et APIs exposés à la périphérie du réseau.

L’approche d’Akamai s’appuie sur une présence dans plus de 4 400 emplacements edge, un chiffre parmi les plus marquants de l’annonce. La société affirme que cette couverture permet de traiter les requêtes au point de contact digital avec l’utilisateur, évitant ainsi la latence supplémentaire d’un cloud traditionnel dépendant du centre d’origine. NVIDIA, quant à elle, positionne cette initiative dans le cadre de sa vision de l’AI Grid, une architecture pensée pour déployer et orchestrer l’IA entre plusieurs sites distribués.

Blackwell, sécurité et charges orientées agents IA

Le cœur technologique du service repose sur les GPU NVIDIA RTX PRO 6000 Blackwell Server Edition. Akamai indique que son Inference Cloud est conçue pour l’inférence IA en edge, exploite ces GPU ainsi que des BlueField DPUs pour améliorer le temps jusqu’au premier token et le débit en tokens par seconde. La société affirme que, selon ses tests, Blackwell offre jusqu’à 1,63 fois plus de débit d’inférence que le H100 dans son propre environnement, bien que cette donnée doit être considérée comme un benchmark interne.

Ce message commercial cadre également avec le type de charges dominantes en 2026. Akamai évoque explicitement l’IA agentique, l’IA physique, et les expériences hyper-personnalisées comme moteurs de la demande. Son offre mentionne des cas d’usage tels que les NPC avec IA pour les jeux vidéo, les moteurs de recommandation en temps réel, la détection de fraude, l’automatisation, RAG, multiagents, ainsi que des outils de productivité en boutique ou en service client. Simultanément, NVIDIA positionne l’inférence distribuée et à faible latence comme un objectif clé de sa nouvelle architecture AI Grid Reference Design.

Un point important est la volonté d’Akamai de se différencier de la simple « hébergement GPU ». La société insiste dans sa documentation qu’elle ne vend pas seulement l’accès à des accélérateurs, mais une plateforme d’inférence en edge avec routage intelligent, protections contre l’abus des modèles, contrôles d’identité, segmentation et sécurité spécifique à l’IA. Cette couche de sécurité devient cruciale à une époque où de nombreuses organisations s’inquiètent non seulement des coûts, mais aussi des risques liés à l’injection de prompts, le scraping, l’abus d’API ou les mouvements latéraux.

Une démarche plus ambitieuse qu’elle ne paraît

Akamai avait déjà évoqué cette orientation fin 2025 avec le lancement d’Akamai Inference Cloud, reliant cette démarche à la croissance de l’IA inférentielle hors des centres de données. Elle cherche désormais à déployer cette stratégie à une échelle supérieure, en apportant un argument financier tangible : le 5 mars, Akamai a révélé un contrat de services de quatre ans d’une valeur de 200 millions de dollars avec une grande entreprise technologique américaine, pour un cluster de milliers de GPU Blackwell hébergé dans un centre de données dédié à l’infrastructure IA en périphérie du réseau.

Cet accord ne fait pas d’Akamai un concurrent direct des grands hyperscalers, mais montre sa volonté de jouer une partie différente. Plutôt que de se battre uniquement pour l’entraînement centralisé massif, elle veut renforcer sa position dans la couche d’inférence distribuée, où la proximité, la connectivité et l’orchestration pèsent tout autant que la puissance GPU. Voilà sans doute l’interprétation la plus intéressante : Akamai ne dit pas que l’avenir de l’IA se limite aux « usines d’IA », mais indique que ces usines devront s’étendre hors des centres, jusqu’au edge, pour répondre efficacement à la prochaine vague d’applications en temps réel.

Il reste évidemment la partie la plus difficile : prouver que cette maillage distribué pourra garantir des SLA, des coûts maîtrisés et des performances à l’échelle réelle, hors discours commercial. Cependant, la logique industrielle est là. Si la première étape de l’IA s’est construite autour de clusters massifs pour l’entraînement, la suivante portera sur la façon dont ces modèles seront servis. Et là, Akamai pense que son avantage historique en distribution mondiale peut se convertir en une nouvelle force dans l’inférence.

Questions fréquentes

Qu’a annoncé exactement Akamai ?

Akamai a présenté AI Grid Intelligent Orchestration, une nouvelle couche d’orchestration pour l’inférence distribuée, intégrée à Akamai Inference Cloud, exploitant plus de 4 400 emplacements edge et des milliers de GPU NVIDIA RTX PRO 6000 Blackwell Server Edition.

Que signifie la première mise en œuvre globale de NVIDIA AI Grid ?

Akamai affirme avoir opérationnalisé à l’échelle réelle le design de référence NVIDIA AI Grid pour déployer et orchestrer les charges d’IA entre plusieurs sites distribués, plutôt que de concentrer celles-ci dans quelques centres centraux.

Quels types d’applications visent ce modèle ?

Il concerne notamment les jeux vidéo avec NPC IA, la détection de fraude, la recommandation en temps réel, le doublage et la transcodification vidéo, le retail, les assistants et agents IA nécessitant une faible latence et une réponse immédiate proche de l’utilisateur.