FuriosaAI et Broadcom préparent une puce IA à 2 nm pour l’ère de l’inférence

FuriosaAI et Broadcom préparent une puce IA à 2 nm pour l'ère de l'inférence

FuriosaAI a annoncé un partenariat avec Broadcom pour développer sa troisième génération d’accélérateurs d’IA. Objectif : une plateforme conçue exclusivement pour l’inférence à grande échelle et les charges agentives. La société sud-coréenne n’emprunte pas la voie des GPU généralistes. Elle mise sur une architecture chiplet avec un die de calcul à 2 nanomètres, de la mémoire HBM4/HBM4E, et les technologies réseau de Broadcom pour passer à l’échelle dans les grands centres de données.

L’annonce tombe au moment où l’industrie regarde au-delà de l’entraînement des modèles. La prochaine phase sera celle d’une inférence massive : des millions d’utilisateurs, des agents IA qui exécutent des tâches, des modèles multimodaux, une génération continue de tokens. Dans ce contexte, ce n’est pas toujours la puce avec la puissance brute qui gagne, mais celle qui déplace le mieux les données, consomme moins et produit plus de tokens par watt. C’est exactement le terrain que vise ce partenariat, dans un marché où NVIDIA rédéfinit les règles du jeu avec ses usines d’IA.

FuriosaAI positionne sa future plateforme pour ce qu’elle appelle l’ère des « token factories ». Le premier échantillonnage est prévu pour le premier semestre 2028, ce qui laisse encore du chemin avant la mise en production réelle.

Architecture chiplet : HBM4 et packaging avancé de Broadcom

La troisième génération adoptera une conception multi-die basée sur des chiplets, avec un composant de calcul fabriqué à 2 nanomètres et une mémoire HBM4/HBM4E. Le packaging avancé de Broadcom intègre plusieurs blocs de silicium dans un système haute performance pensé pour les charges d’inférence.

La mémoire est l’un des points clés. Dans les modèles actuels, et surtout pour l’inférence de grands LLM, le goulot d’étranglement n’est pas que le calcul : c’est aussi la capacité à alimenter la puce en données assez vite. La HBM4 et son évolution HBM4E promettent une bande passante nettement plus élevée, indispensable pour traiter des modèles volumineux, réduire la latence et augmenter les tokens produits par unité d’énergie.

FuriosaAI affirme que son architecture se concentre sur le transfert efficace des données, contrairement à la gestion des threads des GPU traditionnels. L’entreprise revendique un meilleur rapport performance/watt et une densité de tokens supérieure aux GPU les plus avancés. Des affirmations ambitieuses qu’il faudra confirmer avec des benchmarks indépendants et des déploiements réels.

Le design intègre aussi les technologies Ethernet et PCIe de Broadcom pour connecter les accélérateurs en grands clusters. Les centres de données d’IA ne se concoivent plus puce par puce, mais rack par rack et cluster par cluster. La mise en réseau, la latence entre noeuds et la communication interne pèsent autant que la performance de l’accélérateur lui-même.

De RNGD à une plateforme pour l’hyperscale

La nouvelle plateforme s’appuie sur l’expérience de RNGD, la deuxième génération de chips FuriosaAI, actuellement en production avec un procédé à 5 nanomètres chez TSMC. RNGD est un accélérateur PCIe de 180 watts pour l’inférence de LLM, les charges multimodales et les applications d’IA agentive.

La puce actuelle embarque 48 Go de mémoire HBM3, offre un débit mémoire de 1,5 To/s et fonctionne dans des centres de données refroidis par air. FuriosaAI la présente comme une option efficace pour déployer des modèles avancés sans exiger des infrastructures aussi lourdes que certains GPU haut de gamme.

Parmi les clients cités : Samsung SDS et LG AI Research. Ce soutien compte, car le marché des accélérateurs IA est plein de promesses, mais peu d’acteurs franchissent le pas de la démo technique à la production réelle chez des clients d’envergure.

L’alliance avec Broadcom change d’échelle. Broadcom apporte son expertise en ASICs et packaging avancé, mais aussi une position très forte dans les réseaux pour centres de données, ses switches Ethernet haute bande passante et ses plateformes XPU pour grands clients. Pour FuriosaAI, cette collaboration ouvre la voie à une transition : passer du simple vendeur de chips d’inférence à un fournisseur de plateforme d’infrastructure pour déploiements massifs.

L’inférence : un espace encore à conquérir face à NVIDIA

Le marché des puces IA reste largement dominé par NVIDIA, surtout pour l’entraînement et les déploiements GPU à grande échelle. Mais l’inférence ouvre de la place pour des architectures plus spécialisées. Dès lors que les modèles tournent en production en continu, le coût par token, l’efficacité énergétique et la latence prennent le dessus sur la puissance brute.

C’est sur ce terrain que se positionnent FuriosaAI, Cerebras, Groq, Tenstorrent et plusieurs architectures internes d’hyperscalers. Aucun ne concurrence exactement sur le même segment, mais tous répondent au même besoin : réduire la dépendance aux GPU généralistes là où une architecture ciblée répond mieux à une charge précise.

La proposition de FuriosaAI a du sens dans ce cadre. Un centre de données qui génère des tokens en permanence, gère des agents IA, traite des milliers de requêtes simultanées et maîtrise ses coûts peut trouver dans une solution optimisée pour l’inférence une alternative crédible. Le défi reste colossal : logiciels, compatibilité avec les modèles, outils pour développeurs, fiabilité, approvisionnement en mémoire HBM, packaging, fabrication à 2 nm, et compétition contre des environnements logiciels très matures.

FuriosaAI aborde ce défi via son SDK, qui déploie des modèles depuis PyTorch avec un compilateur universel, sans dépendance aux bibliothèques de kernels ajustés manuellement. Une ISA virtuelle est aussi proposée pour les développeurs qui veulent davantage de contrôle sur le hardware, sans la complexité de la programmation GPU traditionnelle.

Si FuriosaAI et Broadcom tiennent leurs engagements, leur solution pourrait s’imposer comme une alternative sérieuse pour l’inférence à grande échelle d’ici 2028. Si non, elle rejoindra la liste des architectures qui ont tenté de s’émanciper du GPU durant la période la plus compétitive de l’histoire du silicium.

Questions fréquemment posées

Que viennent d’annoncer FuriosaAI et Broadcom ?

Un partenariat pour développer la troisième génération d’accélérateurs IA de FuriosaAI : architecture chiplet, die de calcul à 2 nm, mémoire HBM4/HBM4E et technologies réseau Broadcom. Cible : l’inférence à grande échelle et les charges agentives.

Pour quels types de charges cette puce est-elle conçue ?

L’inférence IA à grande échelle : grands modèles de langage, charges agentives, traitement multimodal et génération massive de tokens dans des centres de données. Pas l’entraînement, mais la production continue.

Quand le nouvel accélérateur sera-t-il disponible ?

FuriosaAI prévoit le premier échantillonnage au premier semestre 2028. La disponibilité commerciale dépendra de l’évolution du développement et des premiers déploiements clients.

En quoi l’alliance avec Broadcom est-elle stratégique ?

Broadcom apporte expertise en ASICs, packaging avancé, réseaux centres de données et accès aux grands clients. Pour FuriosaAI, c’est une transition depuis le simple vendeur de puces vers un fournisseur de plateforme d’infrastructure complète pour les hyperscalers.

le dernier