Lenovo mise sur l’inférence en temps réel avec de nouveaux serveurs d’entreprise au CES 2026 et un « pack » de déploiement hybride prêt pour la production

OpenText renforce sa détection et sa réponse avec l'IA : intégrations approfondies avec Microsoft Defender, Entra ID et Copilot pour réduire le bruit et accélérer la réponse

La course mondiale de l’Intelligence Artificielle (IA) en 2026 ne se limite plus à ceux qui entraînent les plus grands modèles, mais s’oriente désormais vers ceux qui parviennent à faire travailler des modèles déjà entraînés dans le monde réel : en magasins, usines, hôpitaux, centres de service client ou infrastructures critiques. Dans ce contexte, Lenovo a saisi son événement Tech World @ CES 2026, organisé à Sphere (Las Vegas), pour dévoiler une nouvelle gamme de serveurs et services spécialement conçus pour l’inférence — la phase où un modèle analyse des données « nouvelles » et prend des décisions en temps réel.

Ce lancement intervient à un moment charnière pour les entreprises : après le choc initial de l’IA générative et la fièvre pour entraîner et ajuster des modèles, le véritable défi se situe désormais dans la vie quotidienne. La question qui anime les comités technologiques n’est plus « Pouvons-nous le faire ? », mais « Pouvons-nous le faire de manière fiable, avec une faible latence, en maîtrisant les coûts et sans transformer cela en un projet sans fin? » Lenovo tente d’y répondre avec une offre combinant matériel, logiciels et services sous son parapluie Hybrid AI Advantage et la proposition de Hybrid AI Factory, déployée en «validated deployments» pour accélérer les délais et réduire les risques.

Inférence : de la théorie à la rentabilité concrète

Lenovo définit l’inférence comme un changement de cap : passer de l’entraînement de grands modèles de langage à exploiter des modèles déjà entraînés pour analyser des données inédites et décider instantanément. C’est la transition du laboratoire à l’impact commercial. Selon la vision de l’entreprise, c’est aussi le moment où l’investissement dans l’IA commence à produire un retour tangible : automatisation opérationnelle, analytique en temps réel, détection de fraude, recommandations immédiates, assistants internes, agents pour processus ou soutien clinique en environnement critique.

L’argument est clair : l’IA ne peut pas se limiter au cloud. Pour générer de la valeur, elle doit s’exécuter là où se trouvent les données (cloud, centres de données et edge) avec une infrastructure adaptée afin d’éviter la latence, les goulets d’étranglement énergétiques ou la complexité du déploiement. Lenovo cite une estimation de Futurum illustrant cette tendance : le marché mondial de l’inférence passerait de 5 milliards de dollars en 2024 à 48,8 milliards en 2030, avec un CAGR de 46,3%.

Trois serveurs pour trois scénarios : du centre de données à l’edge « robuste »

Le cœur du lancement est une gamme de serveurs « optimisés » pour l’inférence, avec différentes capacités et objectifs :

  • Lenovo ThinkSystem SR675i : présenté comme le « poids lourd » pour exécuter des modèles complets avec une grande évolutivité, pour prendre en charge des charges lourdes dans des secteurs comme la fabrication, la santé critique ou la finance. Des médias spécialisés le décrivent comme un système haut de gamme dédié à l’inférence à grande échelle et la simulation accélérée, équipé de plateformes AMD EPYC et de GPU NVIDIA en configuration standard.
  • Lenovo ThinkSystem SR650i : une alternative conçue pour déployer de l’inférence avec une densité GPU dans des centres de données existants, en mettant l’accent sur la facilité d’installation et la montée en charge sans refonte complète de la salle.
  • Lenovo ThinkEdge SE455i : la promesse ici est « l’IA là où l’action se passe ». Il s’agit d’un serveur compact destiné au retail, aux télécommunications ou à l’industrie, conçu pour déployer l’inférence en bord de réseau avec une latence ultra-faible et une tolérance environnementale, opérant dans une plage d’environ -5 °C à 55 °C.

Par ailleurs, Lenovo profite de l’occasion pour renforcer deux arguments classiques qui retrouvent toute leur importance aujourd’hui : énergie et financement. D’une part, la société relie ces systèmes à sa technologie Neptune (refroidissement par air et liquide) en réponse aux contraintes énergétiques liées à la densification du calcul. D’autre part, elle soutient cette démarche avec TruScale, son modèle de paiement à l’usage, permettant aux entreprises de croître sans supporter d’emblée un CAPEX souvent élevé dans les projets IA.

« Validé en amont » pour accélérer : Nutanix, Red Hat et Ubuntu Pro

Lenovo ne se limite pas à vendre du matériel. Son annonce insiste sur le fait que le hardware constitue la base d’une architecture modulaire, Lenovo Hybrid AI Factory, visant à offrir une voie de déploiement plus directe vers la production. Dans ce cadre, la société met en avant trois plateformes d’inférence hybride :

  • ThinkAgile HX avec Nutanix AI : destiné à une inférence centralisée partagée, avec pour objectif de maximiser l’utilisation des GPU, d’améliorer la performance et de permettre la montée en charge dans un environnement virtualisé.
  • Hybrid AI Inferencing avec Red Hat AI : conçu comme une solution d’entreprise pour déploiements robustes, avec un focus sur flexibilité, sécurité et croissance future, notamment pour des scénarios d’IA orientée agents.
  • Hybrid AI Inferencing avec Canonical Ubuntu Pro : pensé comme une solution « entrée de gamme » économique pour démarrer rapidement, expérimenter et déployer en toute sécurité, en s’appuyant sur la scalabilité du SR650i.

Cette approche témoigne d’une intuition pragmatique : beaucoup d’entreprises ne sont pas freinées par le manque d’intérêt mais par la crainte que le déploiement devienne un véritable casse-tête d’interdépendances, d’intégration et de politiques internes difficiles à concilier.

Des services pour que l’IA ne reste pas en mode pilote

Pour clore ce cycle, Lenovo propose Hybrid AI Factory Services pour l’inférence : conseils, déploiement et services managés pour mettre en place des environnements haute performance, adaptés aux charges spécifiques à chaque secteur. Parmi les points forts : performance dès le premier jour, assistance continue (y compris avec Premier Support) et la flexibilité de TruScale pour accompagner l’évolution opérationnelle de l’IA.

Le marché est clair : en 2026, la valeur ne réside pas seulement dans « avoir de l’IA », mais dans l’utiliser activement : surveiller les coûts, garantir la disponibilité, mettre à jour les modèles, gouverner les données, assurer la sécurité et éviter que le système ne se dégrade avec l’augmentation de la demande.

Sphere comme vitrine : l’IA aussi pour des expériences immersives

L’événement s’est tenu dans Sphere, et Lenovo en a profité pour démontrer des cas concrets : en tant que partenaire technologique de Sphere Studios, la société affirme que sa puissance de traitement contribue à la création de contenus immersifs, avec des centaines de ThinkSystem SR655 V3, processeurs AMD EPYC et calcul accéléré par NVIDIA dans les flux de production.

En somme, c’est le même message appliqué au divertissement : lorsque l’expérience repose sur des données, du rendu et une faible latence, l’infrastructure devient une partie intégrante du produit.


Questions fréquentes (FAQ)

Quelle différence y a-t-il entre entraîner un modèle et faire de l’inférence en production ?
L’entraînement consiste à créer ou ajuster le modèle ; l’inférence l’utilise pour analyser des données inédites et prendre des décisions en temps réel. C’est la phase où l’IA devient un service opérationnel (et où le retour sur investissement apparaît souvent).

Quand est-il pertinent de déployer de l’inférence en edge plutôt que dans le cloud ?
Lorsque la latence est critique (retail, industrie, télécoms), lorsque les données sont générées localement ou lorsque des exigences de résilience et de continuité s’imposent, même avec une connectivité limitée.

Quels avantages offre une plateforme « prévalidée » comme Hybrid AI Factory par rapport à la composition de pièces séparées ?
Elle réduit les risques d’incompatibilités, accélère le time-to-market et facilite la mise en production, surtout dans des environnements où la sécurité, la virtualisation et l’exploitation ont plus d’importance que l’expérimentation.

Pourquoi la refroidissement (Neptune) et le paiement à l’usage (TruScale) sont-ils importants dans les projets d’inférence ?
Parce que l’inférence à grande échelle peut augmenter la densité de calcul et la consommation d’énergie ; le refroidissement évite les limites thermiques, et le paiement à l’usage permet de dimensionner et croître sans investir dès le départ dans une infrastructure surdimensionnée.

source : news.lenovo

le dernier