Tensordyne Napier défie NVIDIA avec une puce IA basée sur des mathématiques logarithmiques

Tensordyne Napier défie NVIDIA avec une puce IA basée sur des mathématiques logarithmiques

Tensordyne souhaite se lancer dans la course à l’inférence en Intelligence Artificielle par une voie différente de celle traditionnellement empruntée. La société a annoncé Napier, une puce fabriquée en 3 nm qui promet de meilleures performances par watt, une consommation plus faible et une capacité accrue de traitement des tokens par rapport aux plateformes NVIDIA Blackwell et Rubin. Cette proposition intervient à un moment où le coût de déployer des modèles de grande taille devient l’un des principaux défis de l’industrie.

La société ne propose pas simplement un nouvel accélérateur d’IA. Son message est plus ambitieux : repenser la façon dont sont calculées les opérations des modèles grâce à des mathématiques logarithmiques, une architecture mémoire très intégrée et une interconnexion à faible latence conçue pour une scalabilité en rack. La promesse est claire, même si elle nécessite encore des tests indépendants : déployer des modèles de milliards de paramètres avec moins d’énergie, moins d’infrastructure et un meilleur rapport économique pour les fournisseurs de cloud, neo-clouds et entreprises.

Selon Tensordyne, Napier a terminé la phase de tape-out, et la société assure que le silicium entre en fabrication à grande échelle chez TSMC. La puce a été développée en collaboration avec Broadcom et TSMC, et la plateforme inclut des travaux d’intégration avec Juniper Networks pour le réseau interne de grande envergure. La société évoque également une demande prévue de plus de 200 millions de dollars pour les systèmes Napier, un chiffre qui témoigne d’un intérêt commercial, même si cela ne correspond pas encore à des déploiements massifs validés.

Une puce de 3 nm centrée sur l’inférence

Napier est conçue pour l’inférence, et non pas pour concurrencer de manière générique dans tous les usages d’entraînement et de calcul accéléré. Cette approche est cruciale. L’inférence de grands modèles devient une charge économique énorme : plus d’utilisateurs, plus d’agents, plus de contexte, davantage de tokens générés et une exigence accrue en termes de latence. Dans ce contexte, la performance brute est importante, mais le rendement par watt et par dollar peut être encore plus déterminant.

D’après les données publiques et recueillies par des médias spécialisés, la puce Napier intègre 138 milliards de transistors, 144 Go de mémoire HBM3E, 256 Mo de SRAM, et atteint 2,1 PFLOPS de calcul dense en FP8 avec une consommation déclarée de 300 W par module. Ces chiffres visent à la positionner face aux accélérateurs d’IA haut de gamme, mais son élément différenciant ne réside pas uniquement dans le nœud de fabrication ou la mémoire.

Caractéristique Tensordyne Napier
Processus de fabrication TSMC 3 nm
Transistors 138 milliards
Mémoire HBM 144 Go HBM3E
SRAM 256 Mo
Capacité de calcul déclarée 2,1 PFLOPS FP8 dense
Consommation par puce 300 W
Focus principal Inférence de modèles génératifs
Statut annoncé Tape-out terminé et passage à la fabrication

L’entreprise s’appuie largement sur TDN Math, une approche qui remplace les opérations de multiplication à grande échelle par des calculs basés sur des sommes dans un système numérique logarithmique. L’utilisation de systèmes logarithmiques n’est pas nouvelle en informatique, mais Tensordyne affirme l’avoir adaptée à un hardware spécifique et à une pile logicielle capable d’occulter cette complexité à l’utilisateur.

Ce dernier point sera décisif. Un chip d’IA peut promettre beaucoup, mais si son adoption oblige à re-entraîner des modèles, à modifier des formats de manière contraignante ou à reconstruire des pipelines, cela freine considérablement sa diffusion. Tensordyne assure que son logiciel gère les conversions et offre une compatibilité avec des outils reconnus comme PyTorch, Triton et vLLM. La promesse est que les clients n’aient pas à réadapter leurs modèles depuis zéro pour faire face à une nouvelle arithmétique.

TDN72 : le rack comme unité de compétition

Tensordyne ne présente pas Napier comme une puce isolée, mais comme une partie d’un système. Son unité principale est le TDN72 Inference Pod, avec 72 puces Napier. Quatre pods forment un rack complet contenant 288 puces, 42 To de mémoire HBM3E, 74 Go de SRAM, 608 PFLOPS en FP8 dense, avec une consommation déclarée de 120 kW. La société affirme que chaque pod est refroidi par air et consomme environ 30 kW.

Le choix de 72 puces ne semble pas anodin. NVIDIA a établi le format NVL72 comme référence pour ses plateformes de grande échelle en rack, avec 72 GPU et 36 CPU Grace dans GB300 NVL72, et une configuration similaire avec 72 GPU Rubin et 36 CPU Vera dans Vera Rubin NVL72. Tensordyne tente d’établir une comparaison directe : même nombre d’accélérateurs par domaine de scalabilité, mais avec une architecture mathématique et énergétique différente.

Système Configuration nette Mémoire Puissance déclarée
Tensordyne TDN72 Pod 72 puces Napier environ 10 To HBM
Rack complet Tensordyne 4 pods, 288 puces 42 To HBM3E
NVIDIA GB300 NVL72 72 Blackwell Ultra + 36 Grace 20 To HBM3E (GPU) + 17 To LPDDR5X (CPU)
NVIDIA Vera Rubin NVL72 72 Rubin + 36 Vera 20,7 To HBM4

Les comparaisons de Tensordyne sont ambitieuses. La société affirme que Napier peut fournir 17 fois plus de tokens par watt et 13 fois plus de tokens par seconde que Blackwell. Elle avance également que son système peut traiter des modèles de plusieurs milliards de paramètres à 1 000 tokens par seconde par utilisateur dans un seul rack, contre des configurations beaucoup plus volumineuses basées sur Rubin et LPX.

Ces affirmations doivent être prises avec précaution. Il n’existe pas encore de benchmarks indépendants largement acceptés pour vérifier ces ratios face à Blackwell, Blackwell Ultra ou Rubin. De plus, les performances en inférence dépendent largement du modèle, de la taille du contexte, du batch, de la précision, de l’interconnexion, du logiciel, de la qualité de service, de la mémoire disponible ainsi que du profil d’utilisation réel.

L’enjeu : changer la mathématique plutôt que simplement ajouter des chips

La majorité des concurrents de NVIDIA tentent de se différencier par le coût, la disponibilité, la spécialisation ou l’intégration verticale. Tensordyne propose une valeur ajoutée supplémentaire : transformer la façon de représenter et d’exécuter les opérations. Son approche logarithmique vise à réduire la consommation énergétique et la surface de silicium dans les opérations clés des modèles Transformer, en particulier lors de l’inférence.

Ce concept est attrayant car l’industrie est confrontée à une réalité difficile. Augmenter les GPU, les racks et les mégawatts n’est pas une solution infinie. Le coût de l’énergie, du refroidissement, de la mémoire HBM, du réseau, de l’espace et de l’alimentation commence à limiter de nombreux projets. Une architecture capable de réduire la consommation sans pénaliser la précision ni la compatibilité aurait une valeur immédiate.

Composant de la plateforme Fonction
TDN Math Mathématiques logarithmiques pour réduire le coût computationnel
TDN AIP Processeur d’Intelligence Artificielle Napier
TDN ACT Plateforme de calcul du système
TDN Link Interconnexion à faible latence pour la montée en charge
TDN72 Pod Serveur de 72 puces dédié à l’inférence
TDN Rack Quatre pods, 288 puces, 42 To de HBM3E

Le vrai défi est de savoir si cet avantage sera maintenu en conditions réelles. Le secteur du hardware IA a déjà été marqué par des promesses spectaculaires qui ont souvent été freinées par un logiciel immature, un manque de support, des difficultés à attirer les développeurs ou une incapacité à suivre la feuille de route face à NVIDIA. Tensordyne devra non seulement prouver que son puce est efficace, mais aussi que son système est fiable, programmable, évolutif et disponible en volume.

ServeTheHome résume bien le point : Napier est intéressant car il ne se limite pas à copier le format de NVIDIA et à promettre un prix inférieur, mais cherche à changer la mathématique. Cela le rend plus pertinent d’un point de vue technique, mais aussi plus exigeant. Toute modification profonde de la représentation numérique doit être vérifiée pour garantir la qualité, la précision et la stabilité sur des modèles réels.

NVIDIA conserve son écosystème

Le défi de Tensordyne se pose face à un concurrent qui ne vend pas uniquement des chips. NVIDIA propose une plateforme complète : GPU, CPU, NVLink, réseaux InfiniBand et Ethernet, logiciels, bibliothèques, systèmes rack-scale, outils de gestion et une vaste communauté de développeurs. GB300 NVL72 intègre 72 GPU Blackwell Ultra et 36 CPU Grace, avec 20 To de mémoire HBM3E pour le GPU et 17 To de LPDDR5X pour la CPU, offrant 130 To/s de bande passante NVLink. Vera Rubin NVL72 pousse l’innovation encore plus loin avec 72 GPU Rubin, 36 CPU Vera, HBM4 et NVLink 6.

Plateforme NVIDIA Données officielles clés
GB300 NVL72 72 Blackwell Ultra, 36 Grace, 20 To HBM3E GPU, 130 To/s NVLink
Vera Rubin NVL72 72 Rubin, 36 Vera, 20,7 To HBM4, 260 To/s NVLink
GPU Rubin 50 PFLOPS NVFP4 par GPU
Vera Rubin NVL72 3 600 PFLOPS NVFP4 en inférence
Approche NVIDIA Plateforme intégrée complète pour l’IA, le réseau, le logiciel et la gestion

NVIDIA affirme également que Vera Rubin NVL72 réduit le coût par million de tokens par rapport à GB200 NVL72 et multiplie par deux la performance par mégawatt dans les modèles de raisonnement. La firme répond donc au même enjeu que Tensordyne : rendre l’inférence plus économique et plus efficace pour des modèles toujours plus grands.

La position de Napier devient donc plus complexe. Si ses chiffres sont vérifiés, il peut constituer une alternative pour des fournisseurs ayant besoin de marges accrues en inférence et souhaitant moins dépendre de l’écosystème NVIDIA. Cependant, si le logiciel ou la disponibilité font défaut, le marché pourrait continuer à privilégier une plateforme plus mature mais plus coûteuse.

Le combat se déplace au coût par token

Napier arrive à un moment clé. L’inférence devient la principale dépense récurrente de l’intelligence artificielle générative. L’entraînement d’un modèle est coûteux, mais le déploiement pour des millions d’utilisateurs, d’agents et d’applications peut l’être encore davantage. Dans ce contexte, le secteur se concentre désormais sur des métriques comme le nombre de tokens par seconde, le coût par token, la consommation par rack, la densité d’utilisateurs et la latence par requête.

Tensordyne avance une possibilité d’augmentation de jusqu’à 33 millions de dollars de revenus annuels par rack par rapport à Blackwell, chiffre à interpréter comme une projection commerciale basée sur des hypothèses d’utilisation, de prix et d’occupation. Toutefois, cela indique dans quelle direction se dirige le marché. L’infrastructure IA ne sera plus uniquement vendue en fonction des FLOPS, mais par marge opérationnelle dans les services réels.

Pour les hyperscalers, une amélioration du rapport tokens par watt peut réduire les coûts énergétiques, libérer des capacités électriques et retarder les investissements en nouveaux centres de données. Pour les neo-clouds, cela peut améliorer la marge sur l’inférence haut de gamme. Et pour les entreprises, cela pourrait rendre plus viable l’exécution de grands modèles en local, sans besoin d’un refroidissement liquide complexe, à condition que la compatibilité et l’efficacité promises soient au rendez-vous.

La question n’est plus de savoir si NVIDIA aura de la concurrence, mais combien d’alternatives solides seront capables de passer d’une présentation séduisante à une plateforme déployable, maintenable et fiable.

Tensordyne a placé Napier dans cette optique, avec une proposition audacieuse : moins dépendre d’un simple scalage brut, privilégier l’efficacité mathématique et concevoir une architecture pensée pour servir des modèles gigantesques. Reste à prouver la réalité de ses promesses, à l’extérieur de ses propres matériaux, avec des clients concrets, des charges réelles et des comparaisons qui résistent à l’examen technique.

Questions fréquentes

Qu’est-ce que Tensordyne Napier ?

Napier est une puce d’inférence d’Intelligence Artificielle fabriquée en 3 nm, basée sur une architecture de mathématiques logarithmiques développée par Tensordyne.

Que promet-elle par rapport à NVIDIA Blackwell ?

Tensordyne affirme que Napier permet 13 fois plus de tokens par seconde et 17 fois plus de tokens par watt que Blackwell, bien que ces chiffres proviennent de la société elle-même et nécessitent une validation indépendante.

Qu’est-ce qui est spécial avec TDN Math ?

TDN Math utilise une approche logarithmique pour réduire le coût computationnel de certaines opérations des modèles IA, en substituant une partie de la multiplication intensive par des calculs basés sur des sommes.

Napier est-elle déjà disponible ?

Tensordyne indique que Napier a terminé le tape-out et qu’il passe en fabrication à grande échelle, mais le déploiement commercial et les benchmarks indépendants resteront essentiels pour évaluer son impact réel.

Sources : Tensordyne

le dernier