Akamai lance AI Grid Intelligent Orchestration pour l’inférence distribuée dans 4 400 emplacements périphériques

Info Cloud

X (Twitter) Facebook Pinterest LinkedIn Email

Akamai Technologies (NASDAQ : AKAM) franchit une étape majeure dans le développement de l’intelligence artificielle en annonçant la première mise en œuvre mondiale du Design de Référence NVIDIA AI Grid. Cette initiative intègre l’infrastructure d’IA de NVIDIA au sein du réseau mondial d’Akamai et exploite des systèmes d’orchestration intelligente des charges de travail pour couvrir l’ensemble de leur infrastructure. Grâce à cette approche, la société vise à dépasser le modèle des usines d’IA isolées et à progresser vers un réseau distribué et uni dédié à l’inférence en intelligence artificielle.

Ce mouvement constitue une avancée significative dans l’évolution d’Akamai Inference Cloud, la plateforme lancée par l’entreprise à la fin de l’année dernière. En tant que première entreprise à déployer un réseau basé sur le concept AI Grid, Akamai déploie des milliers de GPU NVIDIA RTX PRO 6000 Blackwell Server Edition, créant ainsi une plateforme conçue pour permettre aux entreprises d’exécuter des systèmes d’IA physique et agente avec la rapidité de l’informatique locale, tout en bénéficiant de l’échelle d’un réseau mondial.

« Les usines d’IA ont été conçues spécifiquement pour l’entraînement et les charges de travail de modèles de pointe, et l’infrastructure centralisée continuera d’offrir la meilleure tokenomique pour ces cas d’usage », indique Adam Karon, directeur des opérations et CEO du Cloud Technology Group d’Akamai. « Mais la vidéo en temps réel, l’IA physique et les expériences personnalisées très concurrentes nécessitent une inférence au point d’interaction, pas un aller-retour vers un cluster centralisé. Notre système d’orchestration intelligente AI Grid offre aux usines d’IA une façon d’étendre l’inférence vers l’extérieur, en exploitant la même architecture distribuée qui a révolutionné la livraison de contenu, pour acheminer les charges de travail IA via 4 400 emplacements, au coût approprié et au bon moment. »

L’architecture de la « Tokenomique »

Au cœur d’AI Grid se trouve un coordinateur intelligent qui agit comme un intermédiaire en temps réel pour les demandes d’IA. En appliquant l’expertise d’Akamai en optimisation des performances applicatives à l’IA, ce plan de contrôle sensible à la charge optimise la « tokenomique » en améliorant drastiquement le coût par token, le temps jusqu’au premier token et la performance.

Une des principales caractéristiques différenciatrices d’Akamai est la capacité de ses clients à accéder à des modèles ajustés ou dispersés via sa présence mondiale étendue, offrant un avantage considérable en termes de coûts et de performance pour la long tail des charges d’IA. Par exemple :

Rentabilité à grande échelle : Les entreprises peuvent réduire considérablement les coûts d’inférence en assignant automatiquement les charges de travail au niveau de calcul approprié. Le coordinateur utilise des techniques telles que la mise en cache sémantique et le routage intelligent pour diriger les requêtes vers des ressources de tailles adaptées, en réservant les cycles GPU premium pour les charges qui en ont besoin. Tout cela repose sur Akamai Cloud, construit sur une infrastructure open source avec des allocations de sortie généreuses pour soutenir des opérations d’IA massives et intensives en données.
Capacité de réponse en temps réel : Les jeux vidéo peuvent proposer des interactions avec des PNJ impulsés par l’IA, maintenant l’immersion du joueur en millisecondes. Les institutions financières peuvent exécuter des recommandations personnalisées de détection de fraude et de marketing, dès la connexion et jusqu’au premier écran. Les broadcasters peuvent transcodifier et doubler du contenu en temps réel pour un public mondial. Ces résultats sont rendus possibles grâce au réseau périphérique distribué mondialement d’Akamai, doté de plus de 4400 emplacements avec cache intégré, de calcul périphérique sans serveur et d’une connectivité haute performance, traitant les requêtes au point d’interaction avec l’utilisateur, évitant ainsi les latences aller-retour des clouds dépendants de l’origine.
IA de niveau production au cœur (Core) : Les grands modèles de langage, l’entraînement continu et les charges de travail d’inférence multimodale nécessitent un calcul soutenu et à haute densité, que seule une infrastructure dédiée peut offrir. Les clusters de milliers de GPU d’Akamai, alimentés par les GPU NVIDIA RTX PRO 6000 Blackwell Server Edition, apportent la puissance concentrée pour les charges lourdes d’IA, complétant l’edge distribué par une échelle centralisée.

Le continuum informatique : du « Core » à l’extremity (Far-Edge)

Basée sur NVIDIA AI Enterprise et en tirant parti de l’architecture NVIDIA Blackwell et des DPU NVIDIA BlueField pour réseaux et sécurité accélérés par matériel, Akamai peut gérer des accords de niveau de service complexes (SLA) dans des emplacements périphériques et centraux :

L’Edge (plus de 4 400 emplacements) : offre des temps de réponse rapides pour l’IA physique et les agents autonomes. Elle exploite le cache sémantique et les capacités sans serveur, telles qu’Akamai Functions (informatique WebAssembly) et EdgeWorkers, pour garantir la compatibilité des modèles et une performance stable au point d’interaction avec l’utilisateur.
IaaS cloud d’Akamai et clusters GPU dédiés : l’infrastructure centralisée du cloud public permet portabilité et réduction des coûts pour les charges de travail à grande échelle, tandis que les pods équipés de GPU NVIDIA RTX PRO 6000 Blackwell offrent un entraînement robuste en mode haute résistance et une inférence multimodale.

« Les nouvelles applications natives de l’IA exigent une latence prévisible et une rentabilité accrue à l’échelle planétaire », affirme Chris Penrose, vice-président mondial du développement d’affaires et des télécommunications chez NVIDIA. « En déployant NVIDIA AI Grid, Akamai crée le tissu de l’IA générative, agentielle et physique, en transférant directement l’intelligence vers les données pour faire naître la prochaine vague d’applications en temps réel. »

Propulser la prochaine vague d’IA en temps réel

Akamai observe déjà une forte adoption initiale d’Akamai Inference Cloud dans des secteurs nécessitant une puissance informatique élevée et une faible latence :

Jeux vidéo : Les studios déploient des inférences inférieures à 50 millisecondes pour les PNJ impulsés par l’IA et les interactions en temps réel des joueurs.
Services financiers : Les banques s’appuient sur le réseau pour un marketing hyper personnalisé et des recommandations rapides lors des connexions des clients.
Médias et vidéo : Les diffuseurs utilisent le réseau distribué pour la transcodification IA et le doublage en temps réel.
Commerce de détail : Les détaillants adoptent la plateforme pour des applications IA en magasin et les outils de productivité liés au point de vente.

Répondant à la demande croissante des entreprises, la plateforme a également été validée par des grands fournisseurs de technologie, incluant un contrat de service de quatre ans d’une valeur de 200 millions de dollars pour un cluster de milliers de GPU dans un centre de données spécialement conçu pour l’infrastructure IA d’entreprise en edge métropolitain.

Évolution des usines d’IA : du centralisé au distribué

La première génération d’infrastructures d’IA se caractérisait par de vastes clusters de GPU dans quelques emplacements centralisés, optimisés pour l’entraînement. Cependant, à mesure que l’inférence devient la charge de travail dominante et que les entreprises de tous secteurs se concentrent sur la création d’agents IA, ce modèle centralisé montre ses limites, tout comme l’ont expérimenté les générations précédentes d’infrastructure Internet dans la distribution de médias, les jeux en ligne, les transactions financières ou les microservices complexes.

Akamai s’attaque à ces défis par une approche innovante : réseaux distribués, orchestration intelligente et systèmes conçus pour rapprocher au maximum contenu et contexte du point d’interaction digital. Le résultat est une meilleure expérience utilisateur et un retour sur investissement accru pour les entreprises adoptant ce modèle. Akamai Inference Cloud applique cette architecture éprouvée aux usines d’IA, ouvrant la voie à une nouvelle vague de croissance et d’expansion via la distribution de la puissance de calcul intensive du cœur jusqu’au « Far-Edge ». Pour les entreprises, cela permet d’implémenter des agents IA sensibles au contexte et adaptables dans leur réactivité. Pour l’industrie, c’est un exemple de la façon dont les usines d’IA évoluent d’installations isolées à un service distribué mondialement.