Alors que la demande de GPU augmente plus rapidement que les capacités de déploiement dans les entreprises, Lenovo a lancé GPU Advanced Services, un portefeuille modulaire de services professionnels pour planifier, déployer et exploiter des infrastructures accélérées par GPU. La promesse : accélérer l’adoption de l’IA, éviter les infraestructures sous-utilisées et améliorer la performance des charges jusqu’à 30 % grâce à l’optimisation et au tuning (chiffres basés sur des évaluations internes de Lenovo).
La société défend une approche “services-first” : maximiser les investissements existants, déployer plus rapidement et scaler sans être piégé par des pilotes propriétaires. “Le marché a besoin précisément de cela à mesure que les cas d’usage de l’IA deviennent mainstream”, résume Steven Dickens (HyperFRAME Research).
Ce qui est inclus : trois modules, de l’idée à l’exploitation
GPU Advanced Services se propose en trois options pouvant être achetées séparément ou combinées :
- GPU Plan & Design — Pour ceux qui débutaient : évaluation des charges, dimensionnement, sélection technologique et conception d’architecture.
- GPU Implementation — Pour déployer : documentation architecturale, configuration de la stack, guide de déploiement et transfert de connaissances.
- GPU Managed Services — Pour la production : optimisation continue, mises à jour et support de récupération, incluant patching et conformité, dans des environnements hybrides et sur site.
En entrée de gamme, Lenovo AI Fast Start aide à identifier et valider les cas d’usage avant d’évoluer vers la production avec GPU Advanced Services.
Pourquoi c’est important : passer de “acheter des GPU” à “les exploiter à fond”
Les frictions les plus courantes dans les projets d’IA ne concernent pas les FLOPS, mais la complexité opérationnelle : files d’attente pour drivers, firmware, runtimes (CUDA/ROCm), goulots d’étranglement de données (I/O / stockage / réseau), schedulers de clusters, orchestration multi-noeuds et multitenancy, ainsi que le tuning fin des frameworks (PyTorch, TensorFlow, Triton, Ray, vLLM, etc.). Le résultat typique est une sous-utilisation des GPU et des coûts gonflés.
Lenovo propose de réduire les délais avec des architectures validées (par ex., Lenovo Hybrid AI Advantage™ et la plateforme Hybrid AI 285), une intégration plateforme profonde (ThinkSystem/HPC) et des experts certifiés ajustant topologies, planification des ressources, pipelines de données et piles IA pour des charges telles que genAI, vidéo en temps réel ou création de contenu.
Impact sectoriel et cas de référence
- Santé : diagnostic assisté avec inferérences en temps réel, amélioration des délais et de la précision clinique.
- Automobile : edge AI pour véhicules connectés et autonomes avec des modèles à optimisation continue.
- Médias / divertissement : tuning pour rendu en temps réel et workflows de production plus efficaces.
- Cirrascale Cloud Services : ont réduit de >40 % le temps de déploiement GPU avec le support de Lenovo, accélérant l’innovation IA pour ses clients.
Intégration dans le stack : ouvert, d’un nœud à multi-nœuds
Les services s’alignent avec les solutions Hybrid AI Advantage et le matériel ThinkSystem/HPC, mais le message est pas d’enfermement : conception d’un seul nœud à multi-nœuds, pile IA personnalisable et support pour environnements hybrides (datacenter et cloud). L’idée est de exploiter au maximum l’investissement existant et de maximiser le rendement / € / W sans forcer le client à une plateforme unique.
Lenovo accompagne cette proposition avec ses credentials : #1 fournisseur par nombre de superordinateurs dans le TOP500 (juin 2023), 11 ans de meilleur uptime en x86 (ITIC), et une position élevée en sécurité des serveurs.
Que peut attendre une entreprise ? (livrables typiques)
- Plan de capacité et matrice de compatibilité (GPU, CPU, réseau, stockage, HBM/PCIe/NVLink, CXL lorsque applicable).
- Architecture alliant haute performance / haute disponibilité : topologies réseau (Ethernet/RDMA/InfiniBand), schedulers et files par charge, quotas / fair-shared, isolation.
- pipelines de données : data loaders optimisés, caches, formats en colonnes, sharding, pre-fetching, pinning mémoire.
- tuning frameworks : compilateurs (XLA/TensorRT/ONNX), quantification (INT8/FP8/bf16), bouting dynamique, tensor parallel et pipeline parallel.
- Observation et finops : métriques d’utilisation GPU, I/O, latence, SLA d’inférence et coût par token; runbooks d’exploitation et de réponse.
Limites et précautions (vue équilibrée)
- “Jusqu’à 30 %” : amélioration basée sur évaluations internes ; le bénéfice réel dépend du profil de charge, données et maturité opérationnelle.
- Talent : le managed service réduit la charge, mais ne supprime pas la nécessité d’une équipe interne consciente du métier et de ses modèles.
- Données : sans gouvernance ( qualité, provenance, sécurité), tout tuning mécanique perd en efficacité.
- Coexistence multicloud : définir des frontières et des responsabilités (patching, conformité, récupération) est clé pour éviter les zones grises.
Questions importantes à poser
- KPI et baseline : comment mesureront-ils utilisation, latence, débit et coût avant/après ?
- Portabilité : quelles options ont-ils si demain ils changent de fournisseur GPU ou cloud ?
- Sécurité et conformité : comment intègrent-ils patching, scan, MFA, ségrégation et traçabilité en environnement hybride ?
- Continuité : quels RTO/RPO garantissent pour les modèles et ensembles de données critiques ?
- Transfert de connaissances : quelle formation et documentation recevra l’équipe ?
Conclusion
GPU Advanced Services représente la réponse de Lenovo à un enjeu moins glamour que les FLOPS, mais tout aussi décisif : opérer et optimiser l’infrastructure IA sans perdre de temps ni de budget. Avec ses modules de conception, déploiement et exploitation — et l’aval d’architectures validées — cette offre promet un chemin plus rapide et sécurisé du pilote à la production, avec des performances tangibles et des coûts cachés réduits. La réussite dépendra de métriques, données et discipline opérationnelle ; mais pour beaucoup d’organisations, avoir des experts à leurs côtés peut faire la différence entre accumuler des GPU et en tirer tout le potentiel.