Tensordyne souhaite se lancer dans la course à l’inférence en Intelligence Artificielle par une voie différente de celle traditionnellement empruntée. La société a annoncé Napier, une puce fabriquée en 3 nm qui promet de meilleures performances par watt, une consommation plus faible et une capacité accrue de traitement des tokens par rapport aux plateformes NVIDIA Blackwell et Rubin. Cette proposition intervient à un moment où le coût de déployer des modèles de grande taille devient l’un des principaux défis de l’industrie.
La société ne propose pas simplement un nouvel accélérateur d’IA. Son message est plus ambitieux : repenser la façon dont sont calculées les opérations des modèles grâce à des mathématiques logarithmiques, une architecture mémoire très intégrée et une interconnexion à faible latence conçue pour une scalabilité en rack. La promesse est claire, même si elle nécessite encore des tests indépendants : déployer des modèles de milliards de paramètres avec moins d’énergie, moins d’infrastructure et un meilleur rapport économique pour les fournisseurs de cloud, neo-clouds et entreprises.
Selon Tensordyne, Napier a terminé la phase de tape-out, et la société assure que le silicium entre en fabrication à grande échelle chez TSMC. La puce a été développée en collaboration avec Broadcom et TSMC, et la plateforme inclut des travaux d’intégration avec Juniper Networks pour le réseau interne de grande envergure. La société évoque également une demande prévue de plus de 200 millions de dollars pour les systèmes Napier, un chiffre qui témoigne d’un intérêt commercial, même si cela ne correspond pas encore à des déploiements massifs validés.
Une puce de 3 nm centrée sur l’inférence
Napier est conçue pour l’inférence, et non pas pour concurrencer de manière générique dans tous les usages d’entraînement et de calcul accéléré. Cette approche est cruciale. L’inférence de grands modèles devient une charge économique énorme : plus d’utilisateurs, plus d’agents, plus de contexte, davantage de tokens générés et une exigence accrue en termes de latence. Dans ce contexte, la performance brute est importante, mais le rendement par watt et par dollar peut être encore plus déterminant.
D’après les données publiques et recueillies par des médias spécialisés, la puce Napier intègre 138 milliards de transistors, 144 Go de mémoire HBM3E, 256 Mo de SRAM, et atteint 2,1 PFLOPS de calcul dense en FP8 avec une consommation déclarée de 300 W par module. Ces chiffres visent à la positionner face aux accélérateurs d’IA haut de gamme, mais son élément différenciant ne réside pas uniquement dans le nœud de fabrication ou la mémoire.
| Caractéristique | Tensordyne Napier |
|---|---|
| Processus de fabrication | TSMC 3 nm |
| Transistors | 138 milliards |
| Mémoire HBM | 144 Go HBM3E |
| SRAM | 256 Mo |
| Capacité de calcul déclarée | 2,1 PFLOPS FP8 dense |
| Consommation par puce | 300 W |
| Focus principal | Inférence de modèles génératifs |
| Statut annoncé | Tape-out terminé et passage à la fabrication |
L’entreprise s’appuie largement sur TDN Math, une approche qui remplace les opérations de multiplication à grande échelle par des calculs basés sur des sommes dans un système numérique logarithmique. L’utilisation de systèmes logarithmiques n’est pas nouvelle en informatique, mais Tensordyne affirme l’avoir adaptée à un hardware spécifique et à une pile logicielle capable d’occulter cette complexité à l’utilisateur.
Ce dernier point sera décisif. Un chip d’IA peut promettre beaucoup, mais si son adoption oblige à re-entraîner des modèles, à modifier des formats de manière contraignante ou à reconstruire des pipelines, cela freine considérablement sa diffusion. Tensordyne assure que son logiciel gère les conversions et offre une compatibilité avec des outils reconnus comme PyTorch, Triton et vLLM. La promesse est que les clients n’aient pas à réadapter leurs modèles depuis zéro pour faire face à une nouvelle arithmétique.
TDN72 : le rack comme unité de compétition
Tensordyne ne présente pas Napier comme une puce isolée, mais comme une partie d’un système. Son unité principale est le TDN72 Inference Pod, avec 72 puces Napier. Quatre pods forment un rack complet contenant 288 puces, 42 To de mémoire HBM3E, 74 Go de SRAM, 608 PFLOPS en FP8 dense, avec une consommation déclarée de 120 kW. La société affirme que chaque pod est refroidi par air et consomme environ 30 kW.
Le choix de 72 puces ne semble pas anodin. NVIDIA a établi le format NVL72 comme référence pour ses plateformes de grande échelle en rack, avec 72 GPU et 36 CPU Grace dans GB300 NVL72, et une configuration similaire avec 72 GPU Rubin et 36 CPU Vera dans Vera Rubin NVL72. Tensordyne tente d’établir une comparaison directe : même nombre d’accélérateurs par domaine de scalabilité, mais avec une architecture mathématique et énergétique différente.
| Système | Configuration nette | Mémoire | Puissance déclarée |
|---|---|---|---|
| Tensordyne TDN72 Pod | 72 puces Napier | environ 10 To HBM | |
| Rack complet Tensordyne | 4 pods, 288 puces | 42 To HBM3E | |
| NVIDIA GB300 NVL72 | 72 Blackwell Ultra + 36 Grace | 20 To HBM3E (GPU) + 17 To LPDDR5X (CPU) | |
| NVIDIA Vera Rubin NVL72 | 72 Rubin + 36 Vera | 20,7 To HBM4 |
Les comparaisons de Tensordyne sont ambitieuses. La société affirme que Napier peut fournir 17 fois plus de tokens par watt et 13 fois plus de tokens par seconde que Blackwell. Elle avance également que son système peut traiter des modèles de plusieurs milliards de paramètres à 1 000 tokens par seconde par utilisateur dans un seul rack, contre des configurations beaucoup plus volumineuses basées sur Rubin et LPX.
Ces affirmations doivent être prises avec précaution. Il n’existe pas encore de benchmarks indépendants largement acceptés pour vérifier ces ratios face à Blackwell, Blackwell Ultra ou Rubin. De plus, les performances en inférence dépendent largement du modèle, de la taille du contexte, du batch, de la précision, de l’interconnexion, du logiciel, de la qualité de service, de la mémoire disponible ainsi que du profil d’utilisation réel.
L’enjeu : changer la mathématique plutôt que simplement ajouter des chips
La majorité des concurrents de NVIDIA tentent de se différencier par le coût, la disponibilité, la spécialisation ou l’intégration verticale. Tensordyne propose une valeur ajoutée supplémentaire : transformer la façon de représenter et d’exécuter les opérations. Son approche logarithmique vise à réduire la consommation énergétique et la surface de silicium dans les opérations clés des modèles Transformer, en particulier lors de l’inférence.
Ce concept est attrayant car l’industrie est confrontée à une réalité difficile. Augmenter les GPU, les racks et les mégawatts n’est pas une solution infinie. Le coût de l’énergie, du refroidissement, de la mémoire HBM, du réseau, de l’espace et de l’alimentation commence à limiter de nombreux projets. Une architecture capable de réduire la consommation sans pénaliser la précision ni la compatibilité aurait une valeur immédiate.
| Composant de la plateforme | Fonction |
|---|---|
| TDN Math | Mathématiques logarithmiques pour réduire le coût computationnel |
| TDN AIP | Processeur d’Intelligence Artificielle Napier |
| TDN ACT | Plateforme de calcul du système |
| TDN Link | Interconnexion à faible latence pour la montée en charge |
| TDN72 Pod | Serveur de 72 puces dédié à l’inférence |
| TDN Rack | Quatre pods, 288 puces, 42 To de HBM3E |
Le vrai défi est de savoir si cet avantage sera maintenu en conditions réelles. Le secteur du hardware IA a déjà été marqué par des promesses spectaculaires qui ont souvent été freinées par un logiciel immature, un manque de support, des difficultés à attirer les développeurs ou une incapacité à suivre la feuille de route face à NVIDIA. Tensordyne devra non seulement prouver que son puce est efficace, mais aussi que son système est fiable, programmable, évolutif et disponible en volume.
ServeTheHome résume bien le point : Napier est intéressant car il ne se limite pas à copier le format de NVIDIA et à promettre un prix inférieur, mais cherche à changer la mathématique. Cela le rend plus pertinent d’un point de vue technique, mais aussi plus exigeant. Toute modification profonde de la représentation numérique doit être vérifiée pour garantir la qualité, la précision et la stabilité sur des modèles réels.
NVIDIA conserve son écosystème
Le défi de Tensordyne se pose face à un concurrent qui ne vend pas uniquement des chips. NVIDIA propose une plateforme complète : GPU, CPU, NVLink, réseaux InfiniBand et Ethernet, logiciels, bibliothèques, systèmes rack-scale, outils de gestion et une vaste communauté de développeurs. GB300 NVL72 intègre 72 GPU Blackwell Ultra et 36 CPU Grace, avec 20 To de mémoire HBM3E pour le GPU et 17 To de LPDDR5X pour la CPU, offrant 130 To/s de bande passante NVLink. Vera Rubin NVL72 pousse l’innovation encore plus loin avec 72 GPU Rubin, 36 CPU Vera, HBM4 et NVLink 6.
| Plateforme NVIDIA | Données officielles clés |
|---|---|
| GB300 NVL72 | 72 Blackwell Ultra, 36 Grace, 20 To HBM3E GPU, 130 To/s NVLink |
| Vera Rubin NVL72 | 72 Rubin, 36 Vera, 20,7 To HBM4, 260 To/s NVLink |
| GPU Rubin | 50 PFLOPS NVFP4 par GPU |
| Vera Rubin NVL72 | 3 600 PFLOPS NVFP4 en inférence |
| Approche NVIDIA | Plateforme intégrée complète pour l’IA, le réseau, le logiciel et la gestion |
NVIDIA affirme également que Vera Rubin NVL72 réduit le coût par million de tokens par rapport à GB200 NVL72 et multiplie par deux la performance par mégawatt dans les modèles de raisonnement. La firme répond donc au même enjeu que Tensordyne : rendre l’inférence plus économique et plus efficace pour des modèles toujours plus grands.
La position de Napier devient donc plus complexe. Si ses chiffres sont vérifiés, il peut constituer une alternative pour des fournisseurs ayant besoin de marges accrues en inférence et souhaitant moins dépendre de l’écosystème NVIDIA. Cependant, si le logiciel ou la disponibilité font défaut, le marché pourrait continuer à privilégier une plateforme plus mature mais plus coûteuse.
Le combat se déplace au coût par token
Napier arrive à un moment clé. L’inférence devient la principale dépense récurrente de l’intelligence artificielle générative. L’entraînement d’un modèle est coûteux, mais le déploiement pour des millions d’utilisateurs, d’agents et d’applications peut l’être encore davantage. Dans ce contexte, le secteur se concentre désormais sur des métriques comme le nombre de tokens par seconde, le coût par token, la consommation par rack, la densité d’utilisateurs et la latence par requête.
Tensordyne avance une possibilité d’augmentation de jusqu’à 33 millions de dollars de revenus annuels par rack par rapport à Blackwell, chiffre à interpréter comme une projection commerciale basée sur des hypothèses d’utilisation, de prix et d’occupation. Toutefois, cela indique dans quelle direction se dirige le marché. L’infrastructure IA ne sera plus uniquement vendue en fonction des FLOPS, mais par marge opérationnelle dans les services réels.
Pour les hyperscalers, une amélioration du rapport tokens par watt peut réduire les coûts énergétiques, libérer des capacités électriques et retarder les investissements en nouveaux centres de données. Pour les neo-clouds, cela peut améliorer la marge sur l’inférence haut de gamme. Et pour les entreprises, cela pourrait rendre plus viable l’exécution de grands modèles en local, sans besoin d’un refroidissement liquide complexe, à condition que la compatibilité et l’efficacité promises soient au rendez-vous.
La question n’est plus de savoir si NVIDIA aura de la concurrence, mais combien d’alternatives solides seront capables de passer d’une présentation séduisante à une plateforme déployable, maintenable et fiable.
Tensordyne a placé Napier dans cette optique, avec une proposition audacieuse : moins dépendre d’un simple scalage brut, privilégier l’efficacité mathématique et concevoir une architecture pensée pour servir des modèles gigantesques. Reste à prouver la réalité de ses promesses, à l’extérieur de ses propres matériaux, avec des clients concrets, des charges réelles et des comparaisons qui résistent à l’examen technique.
Questions fréquentes
Qu’est-ce que Tensordyne Napier ?
Napier est une puce d’inférence d’Intelligence Artificielle fabriquée en 3 nm, basée sur une architecture de mathématiques logarithmiques développée par Tensordyne.
Que promet-elle par rapport à NVIDIA Blackwell ?
Tensordyne affirme que Napier permet 13 fois plus de tokens par seconde et 17 fois plus de tokens par watt que Blackwell, bien que ces chiffres proviennent de la société elle-même et nécessitent une validation indépendante.
Qu’est-ce qui est spécial avec TDN Math ?
TDN Math utilise une approche logarithmique pour réduire le coût computationnel de certaines opérations des modèles IA, en substituant une partie de la multiplication intensive par des calculs basés sur des sommes.
Napier est-elle déjà disponible ?
Tensordyne indique que Napier a terminé le tape-out et qu’il passe en fabrication à grande échelle, mais le déploiement commercial et les benchmarks indépendants resteront essentiels pour évaluer son impact réel.
Sources : Tensordyne