AWS amènera Cerebras à Bedrock pour accélérer l’inférence IA

Info Cloud

X (Twitter) Facebook Pinterest LinkedIn Email

Amazon Web Services souhaite renforcer l’un des aspects les plus sensibles de la course actuelle à l’intelligence artificielle : la rapidité de l’inférence. AWS et Cerebras ont annoncé une collaboration dans laquelle la plateforme cloud d’Amazon déployera des systèmes Cerebras CS-3 dans ses centres de données, les rendant accessibles aux clients via Amazon Bedrock. Selon les deux entreprises, ce service sera disponible dans les prochains mois et, à partir de 2026, permettra également d’exécuter des modèles ouverts de référence ainsi que des modèles Amazon Nova sur du matériel Cerebras.

Cette annonce est importante car il ne s’agit pas simplement d’ajouter une nouvelle option matérielle au catalogue AWS, mais de tester une architecture différente pour servir des modèles génératifs à très grande vitesse. Plutôt que de traiter toute l’inférence sur un seul type de processeur, Amazon et Cerebras veulent dissocier deux phases distinctes : le pré-remplissage (prefill), qui traite le prompt ou contexte initial, et le décodage (decode), qui génère les tokens de sortie. AWS soutient que cette séparation permettra à chaque puce d’exceller dans ce pour quoi elle est la mieux équipée.

Une architecture séparée pour un goulot d’étranglement de plus en plus visible

Le concept technique de cette alliance repose sur une idée simple à expliquer, mais complexe à mettre en œuvre. AWS utilisera Trainium pour la phase de pré-remplissage, tandis que Cerebras CS-3 sera chargé du décodage. Les deux parties seront reliées via Elastic Fabric Adapter, l’interconnexion haute performance d’Amazon. Selon l’entreprise, cette configuration « disaggregated » ou séparée pourrait offrir jusqu’à cinq fois plus de capacité de traitement de tokens rapides dans le même espace matériel. Ce chiffre doit pour l’instant être considéré comme une promesse annoncée, non pas comme une mesure indépendante validée en environnement de production.

La logique derrière cette architecture est cohérente avec l’état actuel de l’IA. Le pré-remplissage est une tâche fortement parallélisable, alors que le décodage est davantage dépendant d’un accès continu à la mémoire pour générer chaque token successivement. Cerebras affirme depuis longtemps que son avantage réside justement dans cette seconde étape. Leur système CS-3, basé sur le Wafer-Scale Engine et doté d’une grande quantité de mémoire SRAM intégrée, offre un débit de bande passante de 21 PB/s, ce qui cherche à réduire le ralentissement fréquent des GPU, où il faut constamment récupérer des poids durant la génération.

Ce discours s’aligne également avec la tendance actuelle du marché. L’inférence n’est plus seulement une étape secondaire après l’entraînement. De plus en plus d’entreprises réalisent que le coût, la latence et la vitesse de réponse sont déterminants pour déployer des assistants, agents ou outils de programmation. Dans la communication officielle, Cerebras indique que son code agentique peut générer environ 15 fois plus de tokens par requête qu’un chatbot classique, ce qui exerce une pression accrue sur l’infrastructure d’inférence. AWS présente cette collaboration comme une réponse aux goulots d’étranglement dans des charges intensives telles que l’assistance en code en temps réel ou les applications interactives.

AWS renforce Bedrock sans abandonner son propre silicium

Un aspect particulièrement intéressant de cette annonce est qu’Amazon ne remplace pas sa stratégie de puces internes, mais l’étend. Trainium conserve une place centrale dans cette architecture conjointe, AWS le présentant comme le processeur idéal pour le pré-remplissage. La société décrit Trainium comme une puce IA conçue sur mesure pour offrir évolutivité et efficacité en termes de coûts dans les charges de travail génératives. Sa documentation la situe parmi ses premiers modèles en 3 nm, orientés vers l’agentivité, le raisonnement et la génération vidéo.

Ce partenariat avec Cerebras ne remet donc pas en question l’engagement d’AWS envers Trainium, mais le complète là où la société estime pouvoir en tirer un meilleur rendement. Il renforce aussi le rôle de Bedrock en tant que couche d’accès aux modèles et services IA. Bedrock supporte déjà des modèles propres comme Amazon Nova ainsi que des modèles tiers. La documentation officielle indique que la famille Nova est intégrée au service avec des options pour le texte, la multimodalité et le raisonnement. La promesse est désormais que cette offre pourra bénéficier d’une couche d’inférence nettement plus rapide.

Il faut également noter un point stratégique souligné par AWS : cette nouvelle solution sera déployée dans l’infrastructure cloud standard d’Amazon, sur le AWS Nitro System, garantissant que les systèmes CS-3 et les serveurs équipés de Trainium maintiennent le même niveau d’isolation, de sécurité et de cohérence opérationnelle attendu par les clients. C’est un message important car Cerebras a traditionnellement été considérée comme une plateforme très spécialisée et différenciée, alors qu’Amazon souhaite que cette intégration soit vue comme une extension naturelle de son cloud, et non comme un environnement exotique séparé.

La vitesse est plus critique que jamais, mais la validation en production reste à faire

Le lancement s’accompagne de chiffres très ambitieux. Cerebras affirme qu’elle exécute déjà des modèles pour des entreprises telles qu’OpenAI, Meta ou Cognition à des vitesses allant jusqu’à 3 000 tokens par seconde, et prétend que son architecture peut être jusqu’à 15 fois plus rapide que les solutions GPU dans certains scénarios d’inférence. Ces chiffres impressionnent et expliquent pourquoi AWS s’est intéressée à cette technologie, mais il est essentiel de distinguer la performance affichée dans l’environnement de Cerebras et le comportement réel que donnera cette offre lorsqu’elle sera déployée sur Amazon Bedrock, avec des clients, des modèles et des charges plus variés.

Il faut également faire preuve de prudence. AWS et Cerebras ont indiqué qu’ils supporteront à la fois des configurations séparées et intégrées. Autrement dit, tous les déploiements ne migreront pas automatiquement vers une architecture mixte Trainium pour le pré-remplissage et CS-3 pour le décodage. Elles reconnaissent que leurs clients utilisent souvent des mélanges de charges très divers, avec des proportions changeantes entre contexte et génération, et que dans certains cas, une architecture plus classique pourra rester pertinente. En résumé, cette collaboration vise à améliorer de façon significative certains profils d’inférence, sans nécessairement remplacer entièrement les déploiements traditionnels.

Néanmoins, cette annonce reflète une direction claire : AWS veut éviter que la compétition dans le cloud IA ne se limite à la possession de GPU. Elle construit une narration où sa combinaison de silicium propriétaire, de réseau, de Bedrock et de partenaires spécialisés offre une valeur différente. De leur côté, Cerebras parvient à s’intégrer dans la plus grande plateforme cloud grâce à une proposition très adaptée à une demande croissante : une inférence ultra-rapide pour les agents, assistants et applications qui ne peuvent plus attendre. Reste à voir si la performance promisée pourra être maintenue à l’échelle réelle, mais l’indication est claire : dans la nouvelle ère de l’IA, la vitesse de réponse devient presque aussi stratégique que la qualité du modèle.

Questions fréquentes

Qu’ont exactement annoncé AWS et Cerebras ?

AWS a indiqué qu’elle déploiera des systèmes Cerebras CS-3 dans ses centres de données, accessibles à ses clients via Amazon Bedrock. Les deux entreprises collaborent également sur une architecture d’inférence séparée combinant AWS Trainium pour le pré-remplissage et Cerebras pour le décodage.

Quand cette nouvelle infrastructure sera-t-elle disponible chez AWS ?

D’après l’annonce officielle, la solution sera lancée dans les prochains mois. L’exécution de modèles ouverts de référence et d’Amazon Nova sur le matériel Cerebras est prévue pour plus tard en 2026.

Qu’est-ce que l’inférence séparée ou disaggregated inference ?

C’est une approche qui divise l’inférence en deux phases : le pré-remplissage, qui traite le contexte initial, et le décodage, qui produit la réponse token par token. AWS et Cerebras soutiennent que l’utilisation de matériel distinct pour chaque étape peut améliorer la vitesse et la capacité dans certains types de charges de travail.

Amazon Nova est-il déjà intégré à Bedrock ?

Oui. AWS propose déjà les modèles Amazon Nova dans Amazon Bedrock. La nouveauté de cette annonce est la projection de faire bénéficier une partie de cette offre d’un traitement accéléré via Cerebras, pour optimiser la vitesse d’inférence.

Sources : cerebras.ai