Etched sort clandestinement avec 800 millions et une puce d’inférence pour rivaliser en IA

Maria Lafaye D.

X (Twitter) Facebook Pinterest LinkedIn Email

Etched a quitté le mode discrétionnaire avec l’une des propositions les plus agressives du marché du matériel pour l’intelligence artificielle : 800 millions de dollars levés, plus de 1 milliard de dollars en contrats clients, et une puce fonctionnelle fabriquée selon le procédé N4P de TSMC. La startup, basée à San José, ne souhaite pas simplement vendre un accélérateur ; sa vision est de construire des clusters d’inférence complets, conçus de l’échelle du silicium jusqu’au rack, en passant par le logiciel, la refroidissement et la production.

L’entreprise intervient à un moment où l’IA modifie la dynamique des goulots d’étranglement. La formation de modèles gigantesques reste coûteuse, mais la pression se déporte fortement vers l’inférence : exécuter ces modèles des millions de fois par jour, avec une faible latence, un bon coût par token et une consommation électrique raisonnable. Chaque agent, copilote, chatbot, moteur de recherche d’entreprise ou application avec modèles linguistiques rend l’inférence un enjeu d’infrastructure continue.

Etched affirme que sa première puce, l’A0, est déjà revenue de chez TSMC en N4P et qu’elle valide actuellement son premier produit à l’échelle du rack avec des clients, visant à couvrir une demande contractée de plus de 1 milliard de dollars. La société indique également que ses premiers racks commenceront à être expédiés cet été, et que la production a été lancée.

Une startup qui veut vendre des clusters, pas seulement des puces

L’annonce d’Etched est significative car elle s’éloigne du discours classique du « nous avons un ASIC plus rapide ». La société parle de frontier inference clusters, une catégorie où la performance dépend de nombreux composants simultanément : puce, emballage, mémoire, carte, interconnexion, refroidissement, logiciel de déploiement, simulation, test et capacité de fabrication.

Selon les informations publiées par la société elle-même, Etched dispose de plus de 400 ingénieurs provenant d’entreprises telles que NVIDIA, Google TPUs, Broadcom, SK hynix et TSMC. Elle a levé 800 millions de dollars lors de quatre tours de financement non annoncés, dont un investissement stratégique de VentureTech Alliance, un véhicule lié à l’environnement TSMC.

Le dernier tour de financement, de 500 millions de dollars, a placé la valorisation post-money d’Etched à 5 milliards de dollars, selon les sources de Data Center Dynamics. Parmi les investisseurs et soutiens mentionnés figurent des noms financiers et technologiques tels que Jane Street, Hudson River Trading, Stripes, Radical Ventures, Primary VC, Peter Thiel, Geoffrey Hinton et Andrej Karpathy.

Donnée annoncée	Détail
Financement total	800 millions de dollars
Dernier tour	500 millions de dollars
Valorisation post-money	5 milliards de dollars
Contrats clients	Plus d’1 milliard de dollars
Processus de fabrication	TSMC N4P
Équipe	Plus de 400 ingénieurs
Approche	Clusters d’inférence à l’échelle du rack

Etched indique également avoir mis en place une usine à Taïwan et construit dans ses bureaux en Californie un centre de données de 2 MW, une installation de test et un laboratoire de prototypage NPI. La société ne fournit pas beaucoup plus de détails sur ces installations, mais le message est clair : elle souhaite prendre le contrôle de plus de segments de la transition entre conception et production.

Low Voltage Inference et mémoire à l’échelle du cluster

La partie technique de l’annonce repose sur deux idées principales. La première est Low Voltage Inference ou LVI. Etched soutient que de nombreux puces d’IA ne peuvent pas atteindre leur pic théorique en FLOPs, car en augmentant l’utilisation, la consommation augmente et la limitation thermique apparaît. Son architecture vise à exécuter les blocs mathématiques à moins de la moitié de la tension habituelle des puces d’IA, afin d’accroître la densité de calcul tout en maintenant de bonnes performances soutenues.

L’entreprise affirme pouvoir exécuter des modèles MoE dispersés contenant des milliards de paramètres à plus de 80 % des FLOPs de pico, sans throttling thermique. C’est une déclaration forte, mais qui nécessite encore une validation indépendante et des données publiques comparables. Etched indique qu’elle partagera davantage d’informations sur ses performances et sa feuille de route durant l’été.

La seconde idée est Cluster Scale Memory ou CSM. Etched propose une mémoire partagée à faible latence à l’échelle du cluster, supportée par une interconnexion propriétaire de très faible latence et de haut débit. La société affirme que sa conception hybride HBM/SRAM cherche à résoudre deux enjeux : la capacité mémoire et la latence entre les mémoires.

Cela répond directement à un problème central de l’inférence moderne. Lors du traitement de grands modèles, la performance ne dépend pas seulement du nombre d’opérations qu’un chip peut effectuer. Elle dépend également du temps nécessaire pour déplacer les données, de la gestion des chargements de pré-remplissage et de décodage, du fonctionnement avec de longs contextes, et de la capacité à maintenir des coûts bas lorsque les modèles sont utilisés de manière interactive.

Pourquoi l’inférence devient le grand business

La thèse d’Etched est que l’infrastructure actuelle n’est pas optimisée pour servir des modèles de frontière de manière durable et rentable. Gavin Uberti, cofondateur et CEO, explique que : « l’IA s’intègre rapidement dans toutes les industries et applications, ce qui augmente considérablement le besoin d’une infrastructure d’inférence accélérée. »

Cela fait sens. La formation de modèles attire tous les regards à cause de ses coûts astronomiques et de ses clusters massifs. Mais c’est en inférence que les applications vivent au quotidien. Un modèle qui répond aux utilisateurs, aux agents ou aux systèmes internes génère des coûts à chaque exécution. Si la latence est élevée, l’expérience en pâtit. Si le coût par token est élevé, la marge se réduit. Si le hardware ne évolue pas à l’échelle, le produit ne peut pas croître durablement.

C’est pourquoi des propositions spécialisées émergent. Certaines visent des puces plus simples et très efficaces pour une famille spécifique de modèles. D’autres se concentrent sur une mémoire plus proche du calcul. D’autres encore tentent de réduire la dépendance aux GPU généralistes. Etched veut se différencier en proposant une vision système complète : chip, rack, logiciel et production conçus de pair.

La difficulté réside dans le fait que rivaliser avec NVIDIA ne se limite pas à un chip. Il faut aussi s’attaquer à CUDA, aux réseaux, aux systèmes HGX/DGX, aux bibliothèques, aux fournisseurs cloud, aux intégrateurs, à la disponibilité, au support, et à une communauté énorme de développeurs. Etched semble avoir compris cela, puisqu’elle ne se présente pas uniquement comme un fabricant de silicium isolé, mais comme une société d’infrastructure.

La production comme produit

L’une des déclarations les plus illustratives de l’annonce provient de Rob Wachen, cofondateur d’Etched : « la production, c’est le produit ». La formule résume bien l’état du marché. En IA, une architecture brillante ne sert à rien si elle ne peut être fabriquée, testée, déployée et exploitée à grande échelle.

C’est là que de nombreuses startups de chips ont connu des difficultés historiques. Réaliser un tape-out réussi est une tâche ardue. Produire avec un yield élevé, assurer l’emballage, valider les racks, fermer la chaîne d’approvisionnement, attirer des clients cloud, maintenir le logiciel, respecter les calendriers sont autant de défis considérables.

Etched affirme avoir collaboré avec des clients IA, des fournisseurs cloud et des hyperscalers sur des décisions de co-conception, et avoir testé des racks dans des déploiements représentatifs de centres de données, en exécutant des téraoctets de modèles de trafic de production dans son simulateur. Ces déclarations sont importantes, mais le marché attendra des résultats mesurables, des benchmarks publics et des déploiements concrets pour évaluer l’étendue de ses avancées.

L’entrée d’Etched intensifie la concurrence dans un marché en rapide évolution. La première vague d’IA générative a été dominée par la disponibilité des GPU. La prochaine pourrait être définie par ceux qui réussiront à réduire le coût du déploiement de modèles grands tout en maintenant la latence et la capacité d’échelle.

Etched arrive avec des fonds, des contrats, une puce fonctionnelle et une équipe technique de haut niveau. Elle doit encore prouver sa capacité à produire à grande échelle, à délivrer des performances et à assurer la fiabilité. Cependant, sa présence confirme une tendance claire : l’inférence ne constitue plus une phase secondaire de l’IA, mais devient une catégorie d’infrastructure en soi avec des puces, des racks et des architectures spécialement conçus pour supporter l’usage massif de modèles.

Questions fréquentes

Que vient d’annoncer Etched ?
Etched sort discrètement avec 800 millions de dollars levés, plus de 1 milliard de dollars en contrats clients, et une puce fonctionnelle fabriquée en TSMC N4P.

Quel type de produit développe-t-elle ?
Elle conçoit des clusters d’inférence pour l’IA, allant au-delà des simples puces, en intégrant silicium, racks, logiciel, mémoire, refroidissement et interconnexion.

Qu’est-ce que Low Voltage Inference ?
Une architecture visant à exécuter des opérations mathématiques à un voltage réduit pour maintenir davantage de performance sans throttling thermique.

Qu’est-ce que Cluster Scale Memory ?
Une approche pour créer une mémoire partagée à faible latence à l’échelle du cluster, combinant HBM et SRAM via une interconnexion propriétaire.

Peut-elle rivaliser avec NVIDIA ?
Il est encore tôt. Bien que financée, dotée de talents et de contrats, elle doit encore démontrer ses performances, sa production et ses déploiements réels face à l’écosystème NVIDIA très établi.

X (Twitter) Facebook Pinterest LinkedIn Email

Maria Lafaye D.

Journaliste spécialisé dans les technologies, le cloud et l'intelligence artificielle, qui rédige en français à l'aide de l'IA pour des médias tels que Actualité Cloud.