FuriosaAI et Broadcom préparent une puce IA à 2 nm pour l’ère de l’inférence

FuriosaAI et Broadcom préparent une puce IA à 2 nm pour l'ère de l'inférence

FuriosaAI a annoncé un partenariat stratégique avec Broadcom pour développer sa troisième génération d’accélérateurs d’intelligence artificielle, une plateforme conçue spécifiquement pour l’inférence à grande échelle et les charges agéntiques. La société sud-coréenne ne souhaite pas suivre le chemin classique des GPU généralistes, mais miser sur une architecture chiplet avec die de calcul à 2 nanomètres, mémoire HBM4/HBM4E et les technologies réseau de Broadcom pour assurer une scalabilité dans de grands centres de données.

L’annonce intervient à un moment où l’industrie commence à regarder au-delà de l’entraînement des modèles. La prochaine phase sera caractérisée par une inférence massive : des millions d’utilisateurs, des agents IA exécutant des tâches, des modèles multimodaux, une génération continue de tokens et la nécessité de réduire la consommation énergétique. Dans ce contexte, ce n’est pas toujours la puce avec la puissance brute qui l’emporte, mais celle qui déplace le mieux les données, consomme moins et permet de produire plus de tokens par watt.

FuriosaAI affirme que sa nouvelle plateforme sera conçue pour ces types de centres de données, qu’elle désigne comme l’ère des « token factories ». La phase d’échantillonnage du nouveau accélérateur est prévue pour le premier semestre 2028, ce qui laisse encore du temps avant sa mise en production réelle.

Une architecture chiplet avec HBM4 pour un transfert de données optimisé

La troisième génération de FuriosaAI utilisera une conception multi-die basée sur des chiplets, avec un composant de calcul fabriqué en 2 nanomètres et une mémoire HBM4/HBM4E. Selon la société, l’utilisation d’un packaging avancé de Broadcom permettra d’intégrer plusieurs blocs de silicium dans un système haute performance destiné aux charges d’inférence.

La mémoire constitue l’un des leviers clés du design. Dans les modèles actuels, notamment pour l’inférence de grands modèles de langage, le goulet d’étranglement ne réside pas seulement dans le calcul, mais aussi dans l’alimentation du chip avec des données à une vitesse suffisante. La HBM4 et son évolution HBM4E promettent une bande passante accrue, essentielle pour manipuler des modèles volumineux, réduire la latence et augmenter le nombre de tokens générés par unité d’énergie.

FuriosaAI soutient que son architecture se concentre sur le transfert efficient des données, plutôt que sur la gestion des threads à l’image des GPU traditionnels. La société affirme que cette approche permettra d’offrir un meilleur rapport performance/watt et une densité de tokens supérieure aux GPU les plus performants du marché. Il s’agit d’une déclaration ambitieuse qu’il faudra vérifier lorsque des puces concrètes, des benchmarks indépendants et des déploiements en production seront disponibles.

Le design intégrera également les technologies Ethernet et PCIe de Broadcom, visant à connecter les accélérateurs en grands clusters. Ce point est crucial car les centres de données d’IA ne se conçoivent plus niveau chip à chip, mais rack à rack et cluster à cluster. La mise en réseau, la latence entre les nœuds et la communication interne pèsent autant que la performance même de l’accélérateur.

De RNGD à une plateforme pour l’hyperéchelle

La nouvelle plateforme s’appuie sur l’expérience de RNGD, la deuxième génération de chips FuriosaAI, actuellement en production massive avec un processus de fabrication de 5 nanomètres chez TSMC. RNGD est un accélérateur PCIe de 180 watts destiné à l’inférence de modèles de langage, aux charges multimodales et aux applications d’IA agéntique.

Le produit actuel de FuriosaAI intègre 48 Go de mémoire HBM3, offre un débit mémoire de 1,5 To/s et est conçu pour des centres de données refroidis par air. La société le présente comme une option efficace pour déployer des modèles avancés sans nécessiter des infrastructures aussi exigeantes que celles requises par certains GPU de gamme haute.

Parmi les clients et validations mentionnés par FuriosaAI figurent Samsung SDS et LG AI Research. Ce soutien est important car le marché des accélérateurs IA est rempli de promesses, mais peu d’acteurs parviennent à passer du stade de la démonstration technique à une présence réelle chez des clients et en production à grande échelle.

L’alliance avec Broadcom change la dimension du projet. Broadcom apporte non seulement son expertise en ASICs et packaging avancé, mais aussi une position très forte dans les réseaux pour centres de données, with switches Ethernet à bande passante élevée et plateformes XPU personnalisées pour de gros clients. Pour FuriosaAI, cette collaboration peut ouvrir la voie à une transition du simple vente de chips d’inférence efficaces vers une plateforme d’infrastructure pour déploiements massifs.

L’inférence, un espace à conquérir face à NVIDIA

Le marché des chips d’IA demeure largement dominé par NVIDIA, en particulier pour l’entraînement et les déploiements de GPU à grande échelle. Toutefois, l’inférence ouvre des perspectives pour des architectures plus spécialisées. À mesure que les modèles sont déployés en production de façon continue, le coût par token, l’efficacité énergétique et la latence deviennent cruciaux.

C’est dans ce contexte que des acteurs comme FuriosaAI, Cerebras, Groq, Tenstorrent, ou plusieurs architectures internes d’hyperescalaires tentent de se positionner. Toutes ne concurrencent pas sur le même terrain, mais elles répondent à un même besoin : réduire la dépendance aux GPU généralistes, là où une architecture plus ciblée peut mieux répondre à une charge spécifique.

L’approche de FuriosaAI prend du sens dans cette optique. Si un centre de données doit générer des tokens en permanence, gérer des agents IA, traiter des requêtes simultanées et maîtriser ses coûts, une solution optimisée pour l’inférence peut s’avérer attrayante. Le défi sera colossal : logiciels, compatibilités avec les modèles, outils pour les développeurs, fiabilité, achat de mémoire HBM, packaging, fabrication en 2 nm, et compétition face à des écosystèmes très matures.

L’entreprise cherche à adresser une partie de ce défi via son SDK. FuriosaAI assure que son SDK permet de déployer des modèles depuis PyTorch à l’aide d’un compilateur universel, sans dépendance de bibliothèques de kernels ajustés manuellement pour chaque modèle. Elle propose également une ISA virtuelle pour les développeurs souhaitant un contrôle accru du hardware, sans la complexité de programmation GPU traditionnelle.

Le calendrier prévoit le premier échantillonnage en 2028, une date cohérente avec la prochaine vague de centres de données d’IA. D’ici là, la pression sur l’énergie, la mémoire, les réseaux et le coût par token sera encore plus forte. Si FuriosaAI et Broadcom tiennent leurs promesses, leur solution pourrait devenir une alternative crédible pour l’inférence à grande échelle. Sinon, elle restera l’une des nombreuses architectures qui ont tenté de défier le règne des GPU durant la période la plus compétitive de l’histoire du silicium.

Questions fréquentes

Que viennent d’annoncer FuriosaAI et Broadcom ?
Ils ont dévoilé un partenariat pour développer la troisième génération d’accélérateurs IA de FuriosaAI, basé sur des chiplets, un calcul à 2 nm, la mémoire HBM4/HBM4E, et les technologies réseau de Broadcom.

Pour quels types de charges ce chipset est-il conçu ?
Il est destiné à l’inférence IA à grande échelle, aux modèles de langage, aux charges agéntiques, au sampling post-formation et à la génération massive de tokens dans les centres de données.

Quand le nouvel accélérateur sera-t-il disponible ?
FuriosaAI prévoit de commencer l’échantillonnage du chip durant le premier semestre 2028, mais la disponibilité commerciale dépendra de l’évolution du développement et des premiers clients.

le dernier