Avec NVIDIA dominant le marché du hardware dédié à l’intelligence artificielle — de Blackwell à la toute nouvelle plateforme Rubin, supportée par des CPUs Vera et des contextes allant jusqu’à “un million de tokens”, on pourrait croire que tout est dit. Pourtant, Positron AI n’est pas de cet avis. Son PDG, Mitesh Agarwal, insiste sur le fait qu’il existe de la place pour des alternatives axées sur des inférences plus économiques et plus performantes, adaptées aux centres de données en air cooling (air-cooled) et sans la nécessité d’un passage à la refroidissement liquide exigé par les GPU NVIDIA de dernière génération.
La stratégie de Positron se concrétise à travers Atlas, sa première génération, et Asimov, la prochaine. Ces accélérateurs, selon Agarwal, consomment entre 2 et 5 fois moins d’énergie que les GPU NVIDIA en charges d’inférence, tout en pouvant s’intégrer dans des racks conventionnels ventilés à l’air. Le message est clair : déployer dans ce qui existe déjà. “95% de la capacité installée aujourd’hui est air-cooled. Rubin et Blackwell nécessitent de nouvelles infrastructures ; nous, nous utilisons celles que vous avez”, résume-t-il.
Air vs liquide : coûts, délais et complexité
Pour Positron, il ne s’agit pas de sacrifier la performance mais de concevoir spécifiquement pour l’inférence. C’est là où, selon eux, se trouve le volume d’affaires. La différence thermique est significative : Blackwell tourne autour de 1 200 W par GPU et Rubin — d’après les déclarations du dirigeant citées dans la presse spécialisée — pourrait atteindre 2 000 W. Face à ces densités, l’air devient inviable ; il faut passer au liquide, avec son lot de CAPEX (tuyauterie, échangeurs, couloirs humides, garanties d’approvisionnement en eau) et OPEX liés à la maintenance.
Agarwal souligne toutefois un point important : si, à l’échelle d’un bâtiment, les centres en liquide sont plus efficients, leur construction coûte 40-50 % de plus et demande plus de temps. Dans des marchés soumis à des contraintes électriques — comme en milieu urbain aux États-Unis ou en Europe —, la puissance disponible ne suffit pas toujours pour équiper un campus de nouvelle génération. Si l’accélérateur tient dans un air-cooled et répond aux exigences de l’inférence, il peut satisfaire la demande immédiate sans attendre d’autorisations ou d’installation de nouvelles sous-stations.
L’argument technique : puissance maîtrisée et efficacité par token
Voici la fiche technique de Positron, simple à retenir :
- Consommation énergétique par puce : < 200 W dans la configuration de base, et environ 400 W pour les configurations avancées, toutes deux en air cooling.
- Efficacité : 2 à 5 fois mieux qu’un GPU NVIDIA en inférence (selon les cas).
- Rendement / € (performance par dollar) : environ 3,5 fois supérieur à Hopper, et jusqu’à 5 fois mieux dans les charges intensives en mémoire/énergie.
- ROI : alors qu’un investissement dans NVIDIA nécessiterait environ 2 à 2,5 ans pour être amorti, Atlas permettrait de revenir sur investissement en 15-16 mois, et la génération suivante en dessous de 12 mois. Dans des cas extrêmes, le retour peut descendre à 6 mois.
Ce qui reste constant dans toutes ces métriques, c’est la capacité à inférer plus de tokens par euro et par watt. Face à une GPU polyvalente pour entraînement + inférence — le référentiel de NVIDIA —, Positron se positionne comme spécialiste de l’inférence, qui est précisément le domaine où le marché devrait exploser entre 2025 et 2028.
L’enjeu de la pénurie : une nouvelle mémoire, un nouveau goulot d’étranglement
Une grande partie du goulot d’étranglement de l’industrie ne réside pas dans la wafers elle-même, mais dans le packaging avancé et la mémoire HBM (par exemple, CoWoS). Tous se disputent ces mêmes ressources. Positron affirme pouvoir échapper à cette compétition en déployant une architecture mémoire propriétaire, ce qui détacherait ses chaînes d’approvisionnement de celles des NVIDIA/AMD/TPU. Résultat : moins de dépendance vis-à-vis du goulot d’étranglement HBM et, en théorie, plus de scalabilité si les commandes suivent.
En production, Atlas est — selon la société — “Made in US”, avec Intel Foundry et une chaîne domestique. Asimov, avec pour objectif un tape-out fin 2026, serait basé sur un nœud mature disposant aussi de capacités de fabrication en Arizona. La lecture entre lignes montre une priorité donnée à la capacité plutôt qu’à la recherche de chaque millimètre dans le nœud de pointe.
Et le stack système ? CPUs x86 et accélérateurs “Archer”
Positron ne se positionne pas en concurrent des CPU : elle utilise AMD EPYC (mais pourrait utiliser Intel ou Arm) et assemble des systèmes Atlas comprenant 8 accélérateurs “Archer”, 24 canaux DDR5 RDIMM et deux CPU Genoa. La différence — insiste Agarwal — réside dans l’accélérateur et sa mémoire :
- Utilisation du bande passante mémoire : > 90 % (contre 40-50 % habituellement sur GPU “moyennes”).
- Capacité : aujourd’hui, l’objectif est de maximiser le bande passante ; Asimov viserait environ 2 To par carte (≈ 2 048 GB), soit 5 fois plus que ce qui était anticipé pour Rubin (288–384 GB en HBM3e, selon les versions).
Si la limitation lors des inférences provient principalement de la mémoire (fill-heavy, gros contextes, prompt caches, bases vectorielles), cette configuration — grande capacité + haute utilisation — permet d’accroître le débit sans se battre pour chaque gigaoctet de HBM.
Rubin CPX, prefill et “coopération compétitive”
La réponse de NVIDIA face à la montée de l’inférence est déjà en marche avec Rubin CPX, un accélérateur destiné au prefill (entrée des tokens), qui, selon Positron, ne pose pas problème. “Non”, affirme Agarwal, “la sortie (decoding) — code, vidéo, génération prolongée — sera le vrai levier économique, et c’est là que Positron optimise le plus.” Il envisage même des systèmes hybrides : Rubin CPX + Positron pour combiner leurs forces et maximiser leur coût par token dans des charges de travail mixtes.
La lecture sous-jacente est claire : l’entraînement restera concentré sur quelques chips généralistes ; l’inférence se fragmentera en ASICs et en GPUs spécifiques par tâche. La valeur totale du marché est estimée à environ 400 milliards de dollars d’ici 2028 pour l’inférence, selon le dirigeant.
Concurrents “locaux” : Trainium et TPU
Et face à Trainium (AWS) ou TPU (Google), Agarwal distingue plateforme et application. Si l’indicateur principal reste le rendement / € par token dans les modèles de langage de pointe, sa société assure une performance environ 3,5 fois supérieure à Hopper et une meilleure efficacité par watt que Trainium ou TPU dans les cas où la mémoire et l’énergie sont maximisées. L’objectif est : ne pas gagner dans tout mais exceller là où la facture est la plus élevée.
Cas d’usage et clients : brownfield avant greenfield
Le concept s’ancre davantage lorsque l’on intervient dans des centres existants avec une puissance limitée. Agarwal cite Cloudflare — client public — comme exemple de structure où il n’est pas possible d’“exiger plus de mégawatts à la ville” ou de reconstruire liquéfié dans des centres tels que San Francisco, New York ou Chicago. Dans ces cas, Atlas permet d’augmenter le nombre de tokens par watt dans un environnement déjà en place.
Indicateurs à suivre (et précautions)
- Les chiffres de 2000 W pour Rubin restent non confirmés par NVIDIA ; il s’agit d’estimations externes que la société ne valide pas publquement.
- Le calendrier de Asimov (fin 2026) et sa capacité de 2 TB sont des objectifs, mais il faudra attendre la réalité du silicium.
- La refroidissement liquide continuera de progresser, pour des raisons d’énergie et de densité : Positron l’admet et promet un soutien dual (air/liquide) selon la configuration rédigée.
- Le succès de cette approche dépendra si la majorité des inférences de valeur haute restent liées à la mémoire et au decoding — domaines où une avantage concurrentiel est accru — ainsi que de la capacité à maintenir une supply chain hors du goulot HBM.
En résumé
Alors que le marché s’oriente vers des racks en liquide, aux méga watts à portée de main ou intégrant HBM par kilogramme, Positron mise sur l’exploitation de ce qui existe déjà : chips de 200-400 W, mémoire distinctive, meilleur rendement et une promesse séduisante pour tout CFO : récupérer l’investissement en quelques mois, pas en années, dans des inférences réelles. Si Rubin représente l’autoroute de NVIDIA, Positron souhaite remplir les routes secondaires qui continuent de faire circuler le trafic.
Questions fréquemment posées
Pourquoi Positron privilégie-t-elle le air-cooled alors que le liquide est plus performant ?
Parce que 95% de la capacité déjà en place est air-cooled et que passer au liquide coûte 40-50% de plus et prend plus de temps. Dans les inférences avec des chips de 200–400 W, Positron soutient que leur solution s’intègre dans les racks existants et réduit ainsi le délai de time-to-value.
Que signifie “2 à 5 fois plus efficace” qu’une GPU de NVIDIA ?
Il s’agit de plus de tokens par watt et tokens par euro en inférence. La société mentionne environ 3,5× le rendement / € par rapport à Hopper, et jusqu’à 5× dans des charges très dépendantes de la mémoire et de la consommation d’énergie. Le ROI pourrait passer de 2-2,5 ans à 15-16 mois dans la configuration Atlas, voire moins de 12 mois avec la prochaine génération.
Comment Positron contourne-t-elle la pénurie de mémoire HBM ?
En utilisant une architecture mémoire différente (hors HBM/CoWoS), avec plus de 90% d’utilisation du bande passante, et en prévoyant pour Asimov environ 2 TB par carte. Ceci permet de détacher leur production des goulots d’étranglement liés à la disponibilité de la mémoire HBM.
Rubin CPX laisse-t-il Positron à l’écart en inférence ?
Rubin CPX cible principalement le prefill. Positionnant la sortie (decoding) —code, vidéo, génération longue— comme le levier économique principal, Positron planifie d’optimiser cette étape. Ils envisagent même des systèmes hybrides combinant Rubin CPX et leurs propres accélérateurs pour maximiser la rentabilité par token dans des workflows mixtes.
Dans quel stack s’intègre Atlas ?
Dans des serveurs x86 équipés de double AMD EPYC, 24 canaux DDR5 et 8 accélérateurs Archer. Il ne concurrence pas en CPU, sa différenciation réside dans l’accélérateur et la mémoire.
Note : Les chiffres et affirmations proviennent d’entretiens avec le PDG de Positron AI. Certaines estimations de puissance et mémoire pour des plateformes concurrentes (ex. Rubin) ne sont pas confirmées officiellement par leurs fabricants.
Source : wccftech