Intel et SambaNova redessinent l’inférence pour la nouvelle IA agentique

Intel et SambaNova redessinent l'inférence pour la nouvelle IA agentique

Le domaine de l’intelligence artificielle ne se limite plus à l’entraînement de modèles toujours plus volumineux. Il commence également à se concentrer fortement sur l’efficacité de leur exécution en production. Dans ce contexte, Intel et SambaNova ont annoncé une architecture conjointe innovante, conçue pour les charges de IA agentique, un type de déploiement où les modèles ne se contentent pas de répondre à des questions, mais compilent du code, appellent des outils, consultent des bases de données et orchestrent des workflows complexes.

Cette proposition remet en question une idée qui, jusqu’à récemment, semblait indiscutable sur le marché : que tout le futur de l’inférence en IA devait reposer principalement sur les GPU. Intel et SambaNova soutiennent en réalité le contraire. Leur approche part du constat que les nouvelles charges agentiques mettent en évidence les limites des stacks “GPU-only” et nécessitent une répartition optimisée du travail entre différents types de chipsets. Le design présenté associe des GPU pour la phase de pré-remplissage, des RDUs de SambaNova pour le décodage et des processeurs Intel Xeon 6 en tant que CPU hôte, mais aussi comme CPU d’action, chargé de lancer des outils, d’orchestrer les tâches et de valider les résultats.

L’idée centrale : faire exécuter chaque étape de l’inférence par le chip le plus adapté

Ce lancement a une logique technique très cohérente. Dans l’inférence moderne, notamment dans les agents de code, toutes les phases ne nécessitent pas la même approche. La phase de pré-remplissage consomme beaucoup de calcul parallèle, car elle transforme de longs prompts en caches clé-valeur. Là, les GPU restent la solution la plus naturelle. En revanche, une fois que le modèle entre dans la phase de décodage, ce qui prime est la génération rapide et continue de tokens avec une faible latence. Pour cette étape, SambaNova souhaite utiliser ses SN50 RDU, accélérateurs basés sur une architecture de flux de données reconfigurable.

La troisième composante du système est constituée des Intel Xeon 6. Ceux-ci ne jouent pas un rôle secondaire. Intel et SambaNova les positionnent comme le centre de contrôle du système, chargé d’exécuter ce que l’on pourrait appeler “le travail réel de l’agent” : compilation, exécution du code, appels aux API, accès aux outils, coordination des sandboxes, répartition des charges et gestion globale du comportement du système. Ce rôle dépasse celui d’un simple hôte CPU, et reflète une vision qu’Intel tente de promouvoir depuis plusieurs mois : celle que l’IA du futur nécessitera des systèmes plus équilibrés, intégrant aussi bien des accélérateurs que des CPU performants.

Intel cherche à repositionner le CPU au cœur de la stratégie IA

Ce mouvement s’inscrit également dans la stratégie plus large d’Intel autour des Xeon 6. La famille a été lancée en février 2025, et depuis, elle est présentée comme la solution de référence pour les centres de données modernes, notamment dans les scénarios où l’IA ne fonctionne pas isolément, mais en intégration avec des réseaux, du stockage, des bases vectorielles et des applications d’entreprise. Lors de son lancement, Intel décrivait le Xeon 6 comme le “processeur fondamental” pour les systèmes d’IA, alliant de manière optimale performance CPU et compatibilité avec les GPU dans des nœuds hôtes.

Ce qui est intéressant, c’est que désormais, la communication évolue pour aller plus loin : il ne s’agit plus seulement d’accompagner la GPU, mais de jouer un rôle plus substantiel dans l’ère de l’IA agentique. Reuters a d’ailleurs souligné le 9 avril que la montée des agents IA renforce la demande en CPU généralistes, car de nombreuses tâches en dehors de la simple génération de modèles nécessitent une gestion intensive. Intel veut capitaliser sur cette tendance avec deux messages clairs : d’un côté, le logiciel pour datacenters continue majoritairement à s’appuyer sur x86 ; de l’autre, une part significative du travail de production repose encore sur la maturité de l’écosystème autour du Xeon.

SambaNova vise à se distinguer dans la phase la plus coûteuse de l’inférence

De son côté, SambaNova considère cette évolution comme stratégique. La société revendique depuis longtemps que l’économie de l’inférence ne pourra pas se résumer uniquement aux GPU, et que la phase de décodage exige un hardware spécialisé pour réduire le coût par token tout en maintenant des latences compétitives. Dans son communiqué, elle présente le SN50 RDU comme une pièce conçue pour modifier la “tokenomique” de l’inférence, c’est-à-dire le rapport entre performances, coûts et scalabilité lors du déploiement de grands modèles.

SambaNova ajoute aussi un argument commercial séduisant : cette architecture conjointe pourra s’intégrer dans des centres de données existants, refroidis par air. Cela peut attirer des entreprises et des fournisseurs cloud qui souhaitent faire évoluer leur IA agentique sans devoir redessiner entièrement leur infrastructure physique. Même si cela ne garantit pas une adoption massive immédiate, cela constitue une solution pratique face à des déploiements intensifs en puissance et refroidissement.

Beaucoup de promesses, mais encore beaucoup à prouver

Comme c’est souvent le cas avec ce type d’annonces, il y a une part de feuille de route et une part de produit réel. Intel et SambaNova assurent que cette solution d’inférence hétérogène sera accessible aux entreprises, fournisseurs cloud et déploiements d’IA souveraine d’ici la seconde moitié de 2026. Ils précisent également qu’un accord signé prévoit que SambaNova standardise le Xeon 6 comme CPU hôte, avec ses RDU en tant que base pour l’inférence dans cette architecture. Cela indique une intention de collaboration plus approfondie que de simples actions de marketing.

Cependant, plusieurs points restent à éclaircir. Les performances revendiquées par SambaNova — telles que +50 % dans la compilation LLVM par rapport à une CPU Arm de serveur, ou +70 % dans les bases vectorielles — proviennent de mesures internes, non vérifiées par des benchmarks indépendants. Ce n’est pas une remise en question de l’architecture, mais cela doit inciter à la prudence lors de la lecture de cet extrait d’avenir : un schéma avec une forte justification technique, mais pas une solution encore consolidée sur le marché.

Ce partenariat illustre surtout une tendance plus globale : l’IA agentique pousse le secteur vers des systèmes plus hétérogènes, où chaque phase — pré-remplissage, décodage, orchestration, exécution — peut solliciter des composants différents. Si cette vision s’impose, la conversation sur l’infrastructure IA ne se limitera plus à “quelle GPU acheter”, mais se penchera plutôt sur “comment répartir au mieux chaque étape du processus”. Intel et SambaNova veulent jouer un rôle central dans ce débat, et d’ici 2026, cela pourrait bien changer la donne.

Questions fréquentes

Qu’ont précisément annoncé Intel et SambaNova ?
Une architecture hétérogène pour l’IA agentique combinant GPU pour pré-remplissage, RDUs de SambaNova pour le décodage, et processeurs Intel Xeon 6 pour l’orchestration, la compilation et l’exécution des actions.

Que signifie que Xeon 6 soit CPU hôte et “CPU d’action” ?
Cela indique qu’il ne se limite pas à coordonner le système, mais qu’il exécute également des tâches comme la compilation, l’appel d’API, le contrôle des outils, la validation des résultats dans un flux IA agentique.

Quand cette solution sera-t-elle disponible ?
Intel et SambaNova prévoient qu’elle sera accessible aux entreprises, fournisseurs cloud et pour des déploiements d’IA souveraine dans la deuxième moitié de 2026.

Pourquoi les GPU ne suffisent plus dans certains scénarios d’IA ?
Car l’IA agentique comporte des phases différentes avec des besoins spécifiques. Si les GPU restent très efficaces pour le pré-remplissage, la détection, l’orchestration et la gestion d’outils peuvent tirer parti de CPU et d’accélérateurs spécialisés.

via : sambanova.ai

le dernier