Intel et SambaNova unissent leurs forces pour l’inférence : Xeon comme base d’un « centre de données hétérogène » pour l’ère agentique

La pulsación de la Intelligence Artificielle ne se limite plus à l’entraînement de modèles gigantesques, mais s’étend à des enjeux plus quotidiens et, pour de nombreuses entreprises, plus coûteux à long terme : l’inférence. Exécuter des modèles en production — en temps réel, avec une latence maîtrisée et des coûts prévisibles — pousse les responsables […]
Cloudera apporte l’inférence AI au centre de données : plus de contrôle, moins de déplacement des données, et Trino aussi en local

Le discours sur l’intelligence artificielle en entreprise évolue vers une nouvelle phase. Ces dernières années, de nombreuses sociétés ont expérimenté avec des modèles, des assistants et de l’analytique avancée dans des environnements isolés. Cependant, lorsque l’IA passe en production, le débat ne tourne plus autour du choix du modèle, mais se concentre sur quelque chose […]
Lenovo mise sur l’inférence en temps réel avec de nouveaux serveurs d’entreprise au CES 2026 et un « pack » de déploiement hybride prêt pour la production

La course mondiale de l’Intelligence Artificielle (IA) en 2026 ne se limite plus à ceux qui entraînent les plus grands modèles, mais s’oriente désormais vers ceux qui parviennent à faire travailler des modèles déjà entraînés dans le monde réel : en magasins, usines, hôpitaux, centres de service client ou infrastructures critiques. Dans ce contexte, Lenovo […]
NVIDIA redéfinit l’inférence avec Rubin CPX : moins HBM, plus d’efficacité contextuelle

Ces derniers jours, un argument percutant est devenu viral : NVIDIA aurait « admit » que son architecture est « cassée » parce qu’elle a présenté une puce dédiée à l’intelligence artificielle qui omet la mémoire HBM au profit de la mémoire GDDR. Cette déclaration peut faire sensation sur les réseaux sociaux, mais la réalité […]
Qualcomm présente AI200 et AI250 : accélérateurs « rack-scale » pour l’inférence générative avec plus de mémoire, un TCO réduit et une augmentation de la bande passante effective

Qualcomm a fait une avancée significative dans la course à l’inférence IA à l’échelle des centres de données. La société a annoncé les solutions AI200 et AI250, deux plateformes d’accélération vendues sous forme de cartes ou de racks complets, promettant un rendement à l’échelle du rack, une capacité mémoire accrue et un coût total de […]
Intel annonce « Crescent Island » : une nouvelle GPU pour l’ère de l’inférence IA avec 160 Go de LPDDR5X et une microarchitecture Xe3P

Intel a introduit une nouvelle pièce sur l’échiquier de l’intelligence artificielle dans les centres de données. Lors du sommet mondial OCP 2025, l’entreprise a annoncé Crescent Island, nom de code de sa prochaine GPU pour centres de données optimisée pour l’inférence, avec un objectif clair : plus de capacité mémoire par watt, refroidissement à l’air […]
Red Hat AI 3 apporte l’inférence distribuée en production : une plateforme ouverte pour les agents, Kubernetes et tout accélérateur

Red Hat a annoncé Red Hat AI 3, une évolution majeure de sa plateforme d’entreprise en intelligence artificielle qui intègre Red Hat AI Inference Server, RHEL AI et OpenShift AI. L’objectif est de répondre au principal défi de 2025 : opérationnaliser l’inférence à grande échelle (la phase du “faire”) et passer du prototype à la […]
Red Hat amène l’inférence d’IA distribuée aux charges de travail productives d’IA avec Red Hat AI 3

Red Hat, leader mondial dans les solutions logicielles open source, a présenté Red Hat AI 3, une mise à jour majeure de sa plateforme d’intelligence artificielle dédiée aux entreprises. Cette nouvelle version combine les innovations de Red Hat AI Inference Server, Red Hat Enterprise Linux AI (RHEL AI) et Red Hat OpenShift AI, dans le […]
NVIDIA Rubin CPX : le GPU qui redéfinit l’inférence de contexte longue à l’ère de l’IA

L’inférence est devient le nouveau champ de bataille de l’intelligence artificielle. Les modèles actuels ne se contentent plus d’être de simples générateurs de texte ou d’images : ils évoluent vers des systèmes agéntiques capables de raisonner sur plusieurs étapes, de maintenir une mémoire persistante et de gérer des contextes de plusieurs millions de tokens. Pour […]
NVIDIA Rubin CPX : la nouvelle GPU qui inaugure l’ère de l’inférence avec des contextes massifs

L’intelligence artificielle ne connaît pas de pause, et le développement du matériel capable de supporter des modèles de plus en plus complexes et exigeants continue d’évoluer. NVIDIA a présenté Rubin CPX, une GPU qui représente non seulement une évolution par rapport aux générations précédentes, mais ouvre également une nouvelle catégorie au sein de l’écosystème CUDA […]