L’inférence est devenue le terrain où se joue désormais la bataille de l’IA. Les modèles ne se contentent plus d’être entraînés dans des fermes de GPU, ils doivent répondre, raisonner et alimenter des millions d’agents en temps réel. Dans cette nouvelle économie, Samsung tente un retour spectaculaire dans la chaîne d’approvisionnement de Nvidia, et TSMC ne compte rien lâcher.
Le déclencheur de cette recomposition s’appelle Groq. La start-up californienne, spécialisée dans les LPU (Language Processing Units) à très faible latence, a signé fin 2026 un accord de licence non exclusive avec Nvidia. Officiellement, ce n’est pas une acquisition. Groq continue d’opérer en indépendant sous la direction de son nouveau PDG Simon Edwards. En coulisses, le fondateur Jonathan Ross, son président Sunny Madra et plusieurs ingénieurs clés rejoignent Nvidia. Et la fabrication de la prochaine génération, baptisée Groq 3, échappe à TSMC pour atterrir chez Samsung Foundry en process 4 nm.
Contexte : pourquoi l’inférence change la donne pour les fondeurs
Pendant cinq ans, la course à l’IA s’est résumée à une équation simple : plus de paramètres, plus de GPU, plus de mémoire HBM. Cette logique a propulsé Nvidia à plus de 3 700 milliards de dollars de capitalisation boursière en 2026, et a fait de TSMC le partenaire industriel quasi exclusif des puces les plus avancées du marché. Mais le centre de gravité a basculé. Selon les estimations de McKinsey publiées au premier trimestre 2026, plus de 65 % des charges de travail IA en production correspondent aujourd’hui à de l’inférence (chatbots, agents autonomes, copilotes, génération vidéo en streaming) contre seulement 35 % pour l’entraînement.
Cette bascule a deux conséquences immédiates. Les hyperscalers (AWS, Microsoft Azure, Google Cloud) ne raisonnent plus uniquement en TFLOPS d’entraînement, mais en coût par token, en latence sous 50 ms et en watts dépensés par requête. Et les architectures GPU généralistes, optimisées pour le calcul matriciel massif, perdent une partie de leur avantage face à des accélérateurs conçus dès l’origine pour exécuter des modèles déjà entraînés. C’est précisément le pari de Groq depuis sa fondation en 2016, avec une architecture déterministe basée sur de larges blocs de SRAM intégrée, qui élimine la latence imprévisible des hiérarchies mémoire classiques.
Pour Nvidia, intégrer cette technologie revient à se prémunir contre la fragmentation du marché. Pour Samsung, c’est l’occasion de briser le monopole industriel de TSMC sur les puces stratégiques de l’IA générative. C’est ici que la guerre des fondeurs reprend ses droits.
Les faits : Groq 3, Samsung 4 nm et l’effet GTC 2026
Lors de la GTC 2026 de San Jose, Jensen Huang a mis Samsung en avant dès la keynote d’ouverture. Le sud-coréen a été cité comme partenaire clé sur trois fronts simultanés : la mémoire HBM, la fabrication logique et le packaging avancé. Une démarche qui tranche avec les éditions précédentes, où TSMC accaparait quasiment tout l’espace de la chaîne d’approvisionnement. Selon les informations recoupées par DigiTimes et plusieurs sources sectorielles, la Groq 3, premier accélérateur d’inférence directement adossé à la plateforme Nvidia, sera fabriquée par Samsung Foundry sur son process SF4 (4 nm).
Le choix technique mérite d’être souligné. Contrairement aux H200, B200 ou aux futures Rubin, la Groq 3 n’empile pas de larges piles de mémoire HBM3E ou HBM4. Elle s’appuie sur de la SRAM embarquée, ce qui lui donne un net avantage en latence sur les modèles transformeurs de taille moyenne (jusqu’à environ 70 milliards de paramètres). Le revers de la médaille est connu, la capacité mémoire reste limitée par la surface du die, ce qui rend la puce moins adaptée aux modèles frontière de plusieurs centaines de milliards de paramètres. Ce positionnement complète l’offre Nvidia sans la concurrencer frontalement.
Au-delà de la fabrication, Samsung a profité du GTC pour officialiser sa nouvelle génération HBM4E, en attendant la HBM5 prévue pour 2027, ainsi que ses avancées en Hybrid Copper Bonding, une technique de packaging qui réduit la résistance thermique de plus de 30 % par rapport au micro-bumping traditionnel. Cette approche autorise des dies plus serrés sans les coller aux limites thermiques qui plombent aujourd’hui les architectures DRAM 3D et les futures variantes comme la 3D X-DRAM.
Analyse : pourquoi Nvidia a tout intérêt à diversifier ses fondeurs
Le récit simpliste consisterait à dire que Samsung « vole » un contrat à TSMC. La réalité est plus subtile, et plus stratégique pour Nvidia. Le fondeur taïwanais reste indéboulonnable sur les nœuds N3 et N2, où Apple, AMD, MediaTek et Nvidia se disputent une capacité de production limitée. Les délais d’attente pour le packaging CoWoS, indispensable aux GPU IA, atteignent encore plus de 9 mois début 2026, malgré les agrandissements massifs des fab AP6 et AP7 à Tainan. Pour un acteur comme Nvidia, qui projette de livrer plus de 2,5 millions de GPU IA cette année, dépendre d’un seul fournisseur n’est plus une option viable.
Diversifier vers Samsung apporte plusieurs avantages concrets. Côté tarifs, c’est un levier de négociation qui n’est pas mince : depuis 2024, TSMC a augmenté ses prix wafer de plus de 12 % par an. Côté risque géopolitique, la concentration de la production avancée à Taïwan inquiète Washington autant que les hyperscalers. Et côté mémoire et packaging, c’est un ticket d’entrée vers les Coréens, deux segments où Samsung et SK Hynix dominent face à un Micron en retrait. La fragilité récemment révélée de la chaîne logistique des solvants pour semi-conducteurs a rappelé combien la résilience industrielle pèse désormais autant que la performance brute.
Le pari n’est cependant pas gagné pour Samsung. Le sud-coréen traîne encore une réputation mitigée sur ses nœuds avancés. Le SF3 (3 nm GAA) a souffert de rendements jugés inférieurs à 60 % pendant plus de douze mois, ce qui a éloigné Qualcomm et Apple. Avec le SF4, les chiffres seraient remontés autour de 75-80 % selon les analystes coréens, mais l’écart avec TSMC sur N4P (>90 %) reste perceptible. Pour Nvidia, accepter de fabriquer la Groq 3 chez Samsung, c’est accepter une marge de manœuvre serrée, d’où l’intérêt de réserver ce nouveau partenariat à un produit non frontal, plutôt qu’aux GPU phares.
TSMC ne reste pas spectateur
La réponse taïwanaise est déjà en marche. Selon DigiTimes, TSMC pousse ses équipes commerciales pour récupérer la fabrication des futures générations de LPU et accélérateurs d’inférence. L’argument est connu : sa supériorité en rendement, son écosystème de partenaires de packaging avancé (le fameux CoWoS-L et les nouvelles variantes SoIC) et sa capacité à industrialiser plus vite que tout concurrent. Le fondeur préparerait par ailleurs un nœud spécifique optimisé pour l’inférence, avec une densité SRAM accrue et une consommation statique réduite, attendu autour de mi-2027.
Cette compétition profite mécaniquement à Nvidia, qui peut désormais arbitrer entre deux fondeurs sur des produits différents. Mais elle profite aussi à tout le secteur : si TSMC accélère ses investissements pour conserver ses clients stratégiques, et si Samsung gagne en crédibilité industrielle, l’offre disponible pour les hyperscalers et les acteurs souverains européens devrait s’élargir au cours des dix-huit prochains mois.
L’enjeu dépasse les seuls acteurs commerciaux. Comme le montre le cas du processeur VerCore conçu par une IA en moins de 12 heures, la conception de puces s’automatise et la barrière d’entrée du design baisse. Le vrai goulot d’étranglement se déplace vers la fabrication, le packaging et la disponibilité de la mémoire haute bande passante, soit précisément les terrains où Samsung et TSMC s’affrontent.
Perspectives : vers une infrastructure IA hétérogène
La conséquence à moyen terme de ce duel Samsung-TSMC est claire. Les centres de données IA de 2027-2028 ne ressembleront plus à ceux d’aujourd’hui. Plutôt qu’une infrastructure quasi monolithique articulée autour des GPU H200 ou B200, on verra émerger des plateformes hétérogènes mêlant GPU généralistes pour l’entraînement, accélérateurs LPU pour l’inférence à faible latence, DPU pour le réseau, mémoire HBM5 pour les charges denses et SRAM intégrée pour les workloads séquentiels. La compétitivité ne se mesurera plus à la puissance d’une seule puce, mais à la qualité de l’orchestration entre tous ces composants.
Pour les DSI européens, cette diversification est plutôt une bonne nouvelle. Elle rend possibles des architectures moins dépendantes d’un fournisseur unique, et des solutions taillées pour des cas d’usage précis comme la souveraineté, l’edge inference ou la conformité IA Act. Les premiers signaux d’adoption viennent déjà des opérateurs français et allemands, qui exigent maintenant une transparence complète sur l’origine des composants critiques de leurs infrastructures cloud. Sur ce point, la tension croissante autour des exportations chinoises de terres rares et de puces rappelle que la géopolitique reste indissociable de la stratégie cloud.
À court terme, le calendrier reste serré. Les premiers échantillons de Groq 3 sont attendus chez les hyperscalers américains au quatrième trimestre 2026, avec une montée en volume au premier semestre 2027. Si Samsung tient ses promesses de rendement et de capacité, le sud-coréen pourrait remporter une part significative des prochaines générations d’accélérateurs spécialisés. Sinon, TSMC reprendra la main, plus fort que jamais. Dans tous les cas, Nvidia gagne, et c’est peut-être le seul point sur lequel les analystes de Morgan Stanley, Goldman Sachs et Wedbush sont unanimes en cette fin avril 2026.
Questions fréquentes
Qu’est-ce qu’une LPU et en quoi diffère-t-elle d’une GPU ?
Une LPU (Language Processing Unit) est un accélérateur conçu spécifiquement pour l’inférence des modèles de langage. Contrairement à une GPU, qui privilégie le calcul matriciel parallèle massif pour l’entraînement, la LPU mise sur une architecture déterministe avec de larges blocs de SRAM intégrée. Résultat : une latence prévisible et très basse, idéale pour les chatbots, agents IA et copilotes en production.
Nvidia a-t-elle racheté Groq ?
Non. Officiellement, Groq a signé un accord de licence non exclusive de sa technologie d’inférence avec Nvidia. Le fondateur Jonathan Ross, le président Sunny Madra et plusieurs ingénieurs clés ont rejoint Nvidia, mais Groq continue d’opérer comme une entreprise indépendante sous la direction de Simon Edwards en tant que PDG.
Pourquoi Samsung est-elle stratégique pour Nvidia ?
Samsung combine trois atouts critiques pour l’IA : la mémoire HBM (HBM4E aujourd’hui, HBM5 en 2027), la fabrication logique en 4 nm via Samsung Foundry et le packaging avancé avec Hybrid Copper Bonding. En attribuant la production de Groq 3 à Samsung, Nvidia diversifie sa chaîne d’approvisionnement et réduit sa dépendance historique à TSMC, tout en gagnant un levier de négociation tarifaire et géopolitique.
Samsung peut-elle remplacer TSMC pour les GPU IA de Nvidia ?
Pas à court terme. TSMC conserve un avantage net en rendement (>90 % sur N4P contre 75-80 % estimés pour le SF4 de Samsung) et reste incontournable pour les nœuds les plus avancés (N3, N2). La stratégie de Samsung consiste à conquérir progressivement des produits spécialisés comme la Groq 3, plutôt qu’à attaquer frontalement les GPU phares H200 ou B200 de Nvidia.
Quand la Groq 3 sera-t-elle disponible chez les hyperscalers ?
Les premiers échantillons sont attendus auprès des hyperscalers américains (AWS, Microsoft Azure, Google Cloud) au quatrième trimestre 2026. Une montée en volume est prévue au premier semestre 2027, sous réserve que Samsung Foundry confirme ses rendements sur le process SF4 et que la chaîne logistique de packaging suive le rythme.
Quel impact pour les DSI européens ?
La diversification industrielle profite aux DSI européens, qui voient s’élargir le choix entre architectures GPU généralistes et accélérateurs spécialisés. Cela ouvre la porte à des infrastructures cloud plus modulaires, mieux adaptées aux exigences de souveraineté et au cadre fixé par l’IA Act, notamment pour les charges d’inférence en edge ou dans des zones réglementées.