Amazon se lance à fond dans la course aux puces IA avec Trainium3 et le futur Trainium4

Amazon se lance à fond dans la course aux puces IA avec Trainium3 et le futur Trainium4

Amazon a affirmé lors de AWS re:Invent 2025 qu’il ne compte pas rester à la traîne dans la course aux matériels pour l’intelligence artificielle. La société a présenté ses nouveaux serveurs Trainium3 UltraServers et a dévoilé des détails sur la prochaine génération, Trainium4. Ces innovations confirment sa stratégie : réduire progressivement la dépendance aux GPU de tiers et bâtir une plateforme propriétaire de calcul pour les modèles d’IA à échelle massive.

Trainium3 UltraServers : jusqu’à 144 puces et un rendement jusqu’à 4,4 fois supérieur

La nouveauté commerciale majeure est la gamme Amazon EC2 Trn3 UltraServers, des systèmes intégrés regroupant jusqu’à 144 puces Trainium3 dans un seul « super-serveur » conçu spécifiquement pour l’entraînement et l’exécution de modèles d’IA de grande taille. Selon AWS, ces UltraServers offrent :

  • Un rendement de calcul jusqu’à 4,4 fois supérieur à celui de la génération précédente (Trainium2 UltraServers).
  • Une efficacité énergétique environ quatre fois meilleure.
  • Près de 4 fois plus de bande passante mémoire, un atout essentiel pour transférer des données massives sans créer de goulets d’étranglement.

Concrètement, cela signifie réduire des entraînements qui prenaient des mois à quelques semaines, gérer un volume accru de requêtes d’inférence avec la même infrastructure, et surtout, diminuer le coût par requête pour des services comme les chatbots, agents d’IA ou la génération d’images et de vidéos en temps réel.

Amazon se lance à fond dans la course aux puces IA avec Trainium3 et le futur Trainium4 1

AWS évoque une performance pouvant atteindre 362 PFLOPS en FP8 par système lorsque la configuration complète de Trainium3 est exploitée, une donnée qui propulse ces racks dans le cercle des supercalculateurs de pointe, mais sous forme de service cloud.

Réseaux sur mesure : NeuronSwitch-v1 et UltraClusters 3.0

Le seul chipset ne suffit pas. Le vrai défi en IA n’est plus seulement d’obtenir « beaucoup de FLOPS », mais de connecter des milliers de puces sans que le réseau devienne un obstacle.

Pour cela, Amazon a conçu une infrastructure réseau dédiée :

  • NeuronSwitch-v1, un nouveau commutateur qui double la bande passante interne au sein de chaque UltraServer.
  • Un maillage de réseau Neuron Fabric optimisé, réduisant la latence inter-puces à moins de 10 microsecondes, un chiffre crucial pour les entraînements distribués de modèles gigantesques.

En complément, les EC2 UltraClusters 3.0 permettent de relier des milliers de ces UltraServers, atteignant des clusters comprenant jusqu’à 1 million de puces Trainium, dix fois plus que la génération précédente. Sur cette infrastructure, reposent les « modèles fondation » multimodaux, à centaines de milliards de paramètres, capables de traiter des datasets de l’ordre du trillion de tokens, une capacité que seules quelques entreprises mondiales peuvent exploiter.

Résultats tangibles : coûts réduits et vitesse accrue

Amazon ne s’est pas limité à la théorie. Des sociétés telles qu’Anthropic, Karakuri, Metagenomi, NetoAI, Ricoh ou Splash Music utilisent déjà Trainium pour entraîner et déployer leurs modèles, réalisant jusqu’à 50 % d’économies sur les coûts comparés aux solutions GPU, selon AWS.

Un exemple marquant est celui de Decart, un laboratoire spécialisé dans la vidéo générative en temps réel, qui affirme obtenir quatre fois plus de vitesse d’inférence à moitié prix pour la génération vidéo via Trainium, par rapport aux solutions GPU traditionnelles. Cela ouvre la voie à des applications autrefois prohibitives : expériences interactives en direct, simulations en temps réel ou assistants visuels réactifs, sans latence perceptible.

La plateforme Amazon Bedrock, qui gère des modèles fondation, s’appuie déjà sur Trainium3 pour le déploiement en production, preuve que cette puce n’est plus un simple projet expérimental, mais une pièce centrale de l’offre commerciale d’AWS.

En route vers l’avenir : Trainium4 et partenariat avec NVIDIA

Sans se reposer sur ses lauriers, Amazon a révélé sa feuille de route avec Trainium4, la nouvelle génération de ASIC pour l’IA :

  • Au moins 6 fois plus de performance en FP4 (format de précision ultra-faible destiné à l’inférence massive).
  • 3 fois plus de performance en FP8, un format qui s’impose comme le standard pour l’entraînement de grands modèles, en équilibrant précision et efficacité.
  • 4 fois plus de bande passante mémoire, permettant de soutenir des modèles encore plus grands sans brider le chip.

Ce qui est particulièrement intéressant, c’est que Trainium4 s’intégrera avec NVIDIA NVLink Fusion et sera compatible avec des racks MGX, facilitant la fusion de serveurs équipés de GPU NVIDIA et de serveurs Trainium dans une infrastructure unifiée haute vitesse. Il ne s’agit pas d’un choix exclusif « NVIDIA ou Trainium », mais d’un environnement hétérogène où chaque composant est utilisé pour ce à quoi il est le mieux adapté.

Une stratégie stratégique : moins de dépendance, plus de contrôle

Le mouvement d’Amazon s’inscrit dans une compétition où Google (TPU), Microsoft, Meta et d’autres géants tech cherchent à développer leurs propres puces IA pour réduire leur dépendance aux fournisseurs externes, mieux maîtriser leurs coûts et adapter le hardware à leurs besoins spécifiques.

Avec Trainium3, les UltraServers, et la feuille de route de Trainium4, AWS envoie plusieurs messages forts :

  1. « Silicon-first » : l’avenir de l’IA dépend autant du logiciel que du matériel siliconé.
  2. Une démocratisation relative : si ces systèmes restent accessibles principalement aux grandes entreprises et fournisseurs cloud, leur disponibilité en mode service EC2 permet à davantage d’entreprises d’accéder à des capacités autrefois réservées aux géants.
  3. Optimisation intégrale : il ne suffit plus d’avoir beaucoup de puces ; chaque watt et chaque bit de bande passante doivent être exploités au maximum pour éviter l’explosion des coûts à chaque nouveau modèle.

Impacts pour entreprises et développeurs

Pour la majorité des entreprises, cela se traduit concrètement par :

  • Une formation accélérée : passer de mois à semaines permet de tester plus de modèles, d’itérer plus rapidement et de commercialiser plus tôt.
  • Des inférences moins coûteuses : si le coût par requête diminue, on peut déployer davantage d’assistants, d’agents ou de services IA à un public plus large, sans faire exploser la facture.
  • Plus d’options architecturales : combiner Trainium avec des GPUs NVIDIA dans une même infrastructure permet de concevoir des architectures hybrides, ajustées à chaque cas d’usage.
  • Moins d’enfermement »de facto »» avec la GPU classique : la multiplication des alternatives réelles ouvre la porte à une négociation accrue sur les prix et les architectures.

Il ne s’agit pas d’une révolution immédiate pour l’utilisateur final, mais d’un élément clé dans « l’invisible » de l’IA : le matériel des centres de données qui permet à un chatbot de répondre en quelques secondes, à un vidéo d’être générée en temps réel ou à un agent intelligent de prendre des décisions en quelques millisecondes.

Dans la course au calcul IA, Amazon confirme qu’il joue le jeu sérieusement. Et si Trainium3 avec ses UltraServers et la feuille de route de Trainium4 démontrent quelque chose, c’est que la prochaine compétition ne sera pas seulement pour le meilleur modèle, mais pour celui qui dispose de l’infrastructure la plus rapide, efficace et flexible pour le faire tourner à l’échelle planétaire.


Questions fréquentes sur Trainium3 et Trainium4 d’Amazon

Qu’est-ce qu’un UltraServer Trainium3 d’AWS ?
C’est un système intégré AWS regroupant jusqu’à 144 puces Trainium3, conçu spécifiquement pour entraîner et exécuter des modèles IA de grande taille. Il offre jusqu’à 4,4 fois plus de performance de calcul et 4 fois plus d’efficacité énergétique que la génération précédente (Trainium2 UltraServers).

En quoi Trainium diffère-t-il des GPU classiques pour l’IA ?
Trainium est un ASIC (chip spécifique) optimisé pour les opérations d’IA typiques, tandis que les GPU sont des processeurs plus généralistes. En théorie, Trainium peut fournir un meilleur rapport performance/watt et un coût par token entraîné ou inféré inférieur, mais en étant moins flexible pour d’autres charges de travail.

Les entreprises peuvent-elles utiliser Trainium si elles disposent déjà d’infrastructures avec des GPU NVIDIA ?
Oui. AWS autorise déjà la combinaison d’instances GPU et Trainium, et avec Trainium4, la compatibilité avec NVLink Fusion et les racks MGX sera facilitée, permettant une intégration fluide dans une infrastructure unifiée haute vitesse.

Trainium est-il pertinent pour les PME ou uniquement pour les grandes tech ?
Le design est clairement orienté vers les modèles très volumineux et les charges massives. Cependant, en tant que service dans AWS, toute entreprise ou startup peut y accéder à la demande. La véritable valeur réside dans la réduction de la barrière d’entrée aux capacités de calcul qui, auparavant, étaient réservées aux mastodontes du secteur.

source : About Amazon

le dernier