Akamai mise sur l’ère de l’inférence et déploiera des milliers de GPU NVIDIA Blackwell sur une plateforme d’IA distribuée

Rapport sur les ransomwares 2025 : Résilience dans un paysage de menaces alimenté par l'IA

Historiquement associée au monde du CDN et à la distribution de contenus, Akamai cherche à se repositionner d’ici 2026 sous une nouvelle identité : GPU, inférence et intelligence artificielle distribuée. La société a annoncé l’acquisition de des milliers de GPUs NVIDIA Blackwell dans le but de créer l’une des plateformes d’IA les plus déployées au monde, intégrée à son infrastructure cloud et à son réseau mondial.

Ce mouvement intervient à un moment où le marché doit faire face à une réalité complexe : la première vague d’IA s’articulait autour de l’entraînement de modèles dans de grandes « usines » centralisées, mais le véritable enjeu se déplace. L’inférence (l’utilisation du modèle en production) est aussi cruciale que l’entraînement, et en environnement réel, la latence, le coût du trafic et la localisation des données ont désormais plus d’impact que les indicateurs de référence traditionnels.

Du « entraînement sur un site » à la « réponse n’importe où »

La vision d’Akamai repose sur une idée qui, jusqu’à récemment, ressemblait plus à une architecture réseau qu’à de l’IA : considérer la planète comme un backplane à faible latence. Plutôt que de concentrer l’exécution dans quelques régions géantes, l’entreprise propose une plateforme unifiée qui route les charges d’inférence vers des ressources de calcul optimisées réparties dans son propre réseau mondial.

Cette approche vise à résoudre deux problématiques classiques de la cloud centralisée lorsque l’on souhaite déployer l’IA en production :

  • Latence : lorsqu’une réponse doit être fournie « en temps réel » (ou presque), la distance physique redevient un paramètre déterminant.
  • Frais de sortie de données (egress) : transférer des données vers et depuis des centres de données centralisés peut devenir onéreux, surtout avec de gros volumes ou des exigences de souveraineté.

Akamai appuie son argumentation avec une donnée citée dans son annonce : selon la MIT Technology Review, 56 % des organisations considèrent la latence comme le principal frein au déploiement de l’IA à grande échelle. Avec cette hypothèse, l’entreprise veut se positionner comme un « système nerveux décentralisé » permettant d’amener les modèles du laboratoire au monde réel, là où « résident » les données et où s’évalue le retour sur investissement.

Ce qui va être déployé concrètement : Blackwell pour l’inférence, l’affinement local et le post-entraînement

Akamai n’a pas dévoilé le nombre précis d’accélérateurs, mais insiste sur le fait qu’il s’agit de « des milliers » et que les puces ont déjà été achetées. La plateforme est conçue pour couvrir plusieurs phases du cycle de vie du modèle, au-delà de la simple réponse :

  • Inférence haute performance et prévisible : opérée sur des clusters dédiés de GPU pour des réponses rapides.
  • Affinement local : optimiser les modèles à proximité des données, avec des bénéfices évidents en matière de confidentialité et de conformité régionale.
  • Post-entraînement : adapter les modèles de base avec des données propriétaires pour améliorer la précision dans des tâches spécifiques.

Sur le plan technique, Akamai décrit une configuration combinant des éléments qui s’alignent avec l’approche que NVIDIA pousse pour la génération Blackwell : des serveurs NVIDIA RTX PRO, équipés de GPUs NVIDIA RTX PRO 6.000 Blackwell Server Edition, accompagnés de NVIDIA BlueField-3 DPUs, intégrés à l’infrastructure cloud distribuée d’Akamai.

4 400 sites : un avantage « non évident » face aux hyper-scalers

Akamai met en avant un chiffre qui, dans son cas, n’est pas du simple marketing : son réseau mondial dépasse 4 400 sites. Cela lui permet de proposer une couverture qui, sur le papier, a longtemps été l’objectif des hyper-scalers avec leurs « edge regions », mais avec une différence essentielle : Akamai s’appuie sur une infrastructure historiquement conçue pour être proche de l’utilisateur final.

Ce positionnement s’inscrit dans une stratégie de transition : d’un modèle « CDN + sécurité » vers une vision de « cloud distribué ». Ce n’est pas une évolution improvisée : en 2022, la société a acquis Linode pour environ 900 millions de dollars, un mouvement perçu comme la base pour bâtir une infrastructure de calcul généraliste pouvant supporter des services à valeur ajoutée élevée.

Et l’intelligence artificielle entre en jeu : Akamai estime que le marché en est arrivé à un point où le vrai défi ne sera plus seulement « avoir le meilleur modèle », mais faire fonctionner ce modèle avec une latence minimale et des coûts maîtrisés dans des environnements réels. Dans cette optique, la plateforme de l’entreprise est positionnée comme un « grid » mondial d’informatique d’IA optimisé pour l’inférence.

Un pas supplémentaire après Inference Cloud : plus de GPU, plus de pression sur le ROI

Ce lancement s’inscrit dans la continuité des initiatives précédentes d’Akamai. La société avait déjà présenté son Inference Cloud, puis élargi ses capacités avec une infrastructure NVIDIA visant à rapprocher l’inférence du point d’utilisation. Selon ses déclarations, ces efforts ont permis d’obtenir des améliorations de latence allant jusqu’à 2,5 fois et de réaliser jusqu’à 86 % d’économies sur les coûts d’inférence par rapport à l’infrastructure traditionnelle des hyper-scalers — des résultats qui, comme d’habitude, dépendent du type de charge, de la localisation et du profil de trafic.

Le marché semble clair : les entreprises veulent de l’IA en production avec une gouvernance solide, des coûts prévisibles et des réponses rapides. Akamai indique observer une forte demande pour ses déploiements avec RTX PRO 6.000 Blackwell Server Edition et prévoit d’ajouter davantage de capacité GPU dans sa stratégie cloud.

La bataille qui s’ouvre : l’edge comme plateforme d’IA

Au fond, l’initiative d’Akamai ne se limite pas à la compétition pour des GPUs. Elle porte aussi sur une vision architecturale : celle que l’IA opérationnelle, l’IA agentique et l’« IA physique » (robots, logistique, industrie, santé) exigeront des prises de décision à très faible latence, avec des données parfois incapables d’être transférées vers un centre de calcul centralisé en raison des coûts ou des réglementations.

Dans ce contexte, Akamai souhaite devenir une alternative crédible pour un segment précis du marché : l’inférence distribuée à grande échelle, effectuée localement, et des déploiements privilégiant proximité et conformité réglementaire. Si cette stratégie fonctionne, elle sera un autre signal en 2026 : l’IA ne sera plus simplement une problématique de modèles, mais deviendra aussi une question d’infrastructures.


Questions fréquentes

Qu’est-ce que l’inférence en intelligence artificielle, et pourquoi sera-t-elle cruciale en 2026 ?
L’inférence consiste à utiliser un modèle déjà entraîné pour produire des réponses en production. En 2026, elle sera particulièrement essentielle car c’est là que se jouent l’expérience réelle et le ROI, avec une latence et des coûts de trafic qui peuvent tout faire pénaliser.

Quels avantages offre une plateforme d’IA distribuée par rapport au cloud centralisé ?
Elle réduit la distance entre le calcul et l’utilisateur ou les données, ce qui peut diminuer la latence et les coûts d’exportation. Elle facilite également la conformité réglementaire en permettant de traiter les données plus près de leur lieu de résidence.

Quels GPUs Akamai va-t-elle déployer, et pour quels types de charges ?
Akamai a annoncé le déploiement de milliers de GPUs NVIDIA Blackwell, notamment dans des serveurs RTX PRO équipés de GPUs RTX PRO 6.000 Blackwell Server Edition, destinés à l’inférence, à l’affinement local et au post-entraînement.

Akamai abandonne-t-elle son rôle de CDN pour devenir une plateforme cloud d’IA ?
Pas du tout. Elle conserve son ADN, qu’elle exploite à son avantage. Son réseau mondial, initialement conçu pour la diffusion de contenus, constitue la base pour rapprocher la calculabilité de milliers d’emplacements et réaliser une inférence à faible latence.

source : akamai

le dernier