Qualcomm a fait une avancée significative dans la course à l’inférence IA à l’échelle des centres de données. La société a annoncé les solutions AI200 et AI250, deux plateformes d’accélération vendues sous forme de cartes ou de racks complets, promettant un rendement à l’échelle du rack, une capacité mémoire accrue et un coût total de possession (TCO) leader dans le secteur pour le déploiement efficace de modèles génératifs (LLM et LMM). Ces solutions offrent une performance par euro/watt, sans compromis sur la sécurité ni la flexibilité. Au-delà de la puissance brute, l’approche se concentre sur ce que l’industrie exige actuellement : servir des modèles déjà entraînés à moindre coût, avec une haute utilisation du matériel, des latences faibles et une pile logicielle conçue pour opérationnaliser l’IA.
« Avec AI200 et AI250, nous redéfinissons ce qui est possible en inférence IA à l’échelle du rack. Ces solutions permettent de déployer de l’IA générative avec un TCO sans précédent, en conservant la flexibilité et la sécurité exigées par les centres de données modernes », a déclaré Durga Malladi, SVP & GM de la planification technologique, des solutions edge et des centres de données chez Qualcomm Technologies.
Ce lancement s’accompagne d’une disponibilité échelonnée : AI200 prévu pour 2026 et AI250 pour 2027. La feuille de route multi-générationnelle, avec une cadence annuelle, met l’accent — comme l’affirme Qualcomm — sur performance d’inférence, efficacité énergétique et TCO.
Deux voies vers un même objectif : inférence générative à grande échelle
AI200 : inférence IA « à l’échelle du rack » avec plus de mémoire par carte
Qualcomm AI200 se présente comme une solution d’inférence à l’échelle du rack axée sur un TCO réduit et un rendement élevé par dollar et watt. Un chiffre remarquable : 768 Go de mémoire LPDDR par carte, ce qui triplera ou quadruplera la mémoire locale habituelle de nombreux accélérateurs actuels. Conçue pour gérer de longs contextes et de plus grands batchs sans pénaliser le rendement dû à un manque de capacité.
- Mémoire : 768 GB LPDDR par carte pour une capacité à coût/Go réduit.
- Objectif : inférence pour LLM et modèles multimodaux (LMM) avec évolutivité et flexibilité.
- Échelle : cartes et racks complets capables de croître vers le haut (PCIe, scale-up) et vers l’extérieur (Ethernet, scale-out).
- Refroidissement : liquide direct dans les racks pour optimiser l’efficacité thermique.
- Sécurité : confidential computing pour protéger données et charges durant l’exécution.
La combinaison d’une grande capacité en LPDDR et d’un PCIe en scale-up anticipe un design où plus de mémoire par accélérateur réduit les coûteux échanges avec la mémoire externe, minimisant ainsi latence et consommation. Un facteur critique lorsque le goulot d’étranglement en inference ne concerne pas uniquement le calcul, mais aussi l’alimentation de tokens et d’activations à haute vitesse.
AI250 : architecture mémoire « near-memory » pour un bond générationnel en bande passante efficace
La composante la plus innovante est AI250, qui introduit une architecture mémoire basée sur le near-memory computing. Son objectif déclaré : une progression générationnelle en efficacité et performance pour l’inférence, avec plus de 10× en bande passante efficace et moins de consommation. En clair : rapprocher calcul et données pour minimiser les transferts et optimiser l’utilisation de chaque watt.
- Near-memory computing : calcul « proche » de la mémoire pour amplifier le bande passante efficace (> 10×).
- Efficience énergétique : moins de puissance par token traité.
- « disaggregated inferencing » : séparation plus flexible des composants (modèle, mémoire, calcul) pour une utilisation optimale du matériel.
- Objectif : atteindre des performances tout en minimisant coûts et consommation par rapport aux architectures monolithiques.
Si AI200 s’attaque à la capacité (plus de mémoire et de contexte par carte), AI250 vise la vitesse d’alimentation (feeding the beast) qui aujourd’hui limite la puissance des grands modèles : sans bande passante mémoire suffisante, le calcul est sous-utilisé. L’approche near-memory de Qualcomm répond à cette lacune.
Racks prêts pour la production : 160 kW, PCIe, Ethernet et sécurité intégrée
Les deux solutions sont également proposées sous forme de racks complets, prêts à une échelle multiple :
- Refroidissement liquide direct : densité accrue avec une moins grande pénalisation thermique.
- PCIe (scale-up) : regroupement des ressources dans le nœud pour une faible latence.
- Ethernet (scale-out) : extension à plusieurs nœuds utilisant des protocoles standards de centre de données.
- Sécurité : charges chiffrées et isolées à l’exécution, essentielle pour l’IA manipulant des données sensibles.
- Consommation : jusqu’à 160 kW par rack, en ligne avec les densités modernes pour une inférence générative à grande échelle.
L’architecture « double échelle » (PCIe intérieur, Ethernet extérieur) offre une modularité : croissance par nœuds (scale-up) quand il faut plus de mémoire ou de calcul, ou par racks (scale-out) pour déployer plusieurs instances en parallèle.
Pile logicielle de type hyperscaler : déploiement simplifié, en un clic
Qualcomm accompagne le matériel avec une pile logicielle complète, allant de la couche application au système, optimisée pour l’inférence et compatible avec les frameworks leaders du machine learning. L’objectif est de réduire la friction :
- Frameworks et runtimes : prise en charge des moteurs d’inférence, frameworks génératifs et techniques d’optimisation pour LLM/LMM, y compris les stratégies de serving désagrégé.
- Onboarding des modèles : intégration fluide et déploiement en un clic via Efficient Transformers Library et Qualcomm AI Inference Suite.
- Outils : applications, agents, bibliothèques, APIs et services pour mettre les modèles en production (observation, gestion, scalabilité).
Concrètement, cela signifie moins de porting ad hoc, moins de délai entre preuve de concept et mise en production, et une meilleure réutilisation de l’écosystème existant — un aspect clé pour les entreprises qui veulent exploiter des modèles déjà entraînés, sans avoir à tout reconstruire.
Pourquoi cela importe : mémoire, TCO et la nouvelle économie de l’inférence
1) Capacité et bande passante au service de la length du contexte
Les 768 GB LPDDR par carte (AI200) et le >10× en bande passante efficace (AI250) ciblent les deux principaux goulots d’étranglement de l’inférence générative : une mémoire insuffisante pour de longs contextes et une alimentation lente du calcul. Si les données n’arrivent pas à temps, les FLOPs théoriques ne se traduisent pas en tokens traités.
2) Coût par token
La métrique clé en production n’est pas la FLOP, mais le coût par réponse. Plus de mémoire économique par accélérateur et moins de watts par token grâce au near-memory sont la voie de Qualcomm pour réduire le coût par requête, une demande cruciale pour les responsables plateforme.
3) Flexibilité opérationnelle
Le serving désagrégé et la double infrastructure (PCIe / Ethernet) permettent d’allouer des ressources selon les modèles et charges : plus de mémoire pour de longs contextes, plus de puissance pour la simultanéité, plus de nœuds pour la gestion multi-clients, tout en garantissant le confidential computing pour les données sensibles.
4) Chemin d’adoption
Le fait que le logiciel supporte des frameworks existants et Hugging Face avec un déploiement en un clic réduit les coûts de changement pour les équipes : il s’agit d’améliorer le service avec ce qui existe déjà, sans tout réinventer.
Calendrier et feuille de route
- AI200 : disponibilité commerciale prévue en 2026.
- AI250 : disponibilité commerciale prévue en 2027.
- Feuille de route : cadence annuelle orientée sur performance d’inférence, efficacité énergétique et TCO.
Ce calendrier coïncide avec les anticipations du marché : dès 2026, les grands acteurs déploieront l’IA générative en production et rechercheront des plateformes optimisées pour servir des modèles à grande échelle à des coûts prévisibles.
Défis et questions en suspens
- Validation des performances : le bond de >10× en bande passante efficace avec AI250 est crucial ; l’industrie attendra des benchmarks comparables (end-to-end) et des charges réelles (LLM/LMM avec batching, decodage spéculatif, KV-cache).
- Efficiences énergétique à l’échelle rack : les 160 kW par rack nécessitent une densité et une gestion du refroidissement optimales ; la refroidissement liquide direct atténue, mais c’est l’opération qui sera déterminante pour justifier le TCO.
- Écosystème : améliorer la compatibilité pour la déployabilité en un clic sur Hugging Face et autres frameworks, tout en assurant la compatibilité avec des techniques innovantes (p.ex., mixture-of-experts, RAG avec indices externes).
- Sécurité : l’accent sur le confidential computing est essentiel ; les regulateurs demanderont des certifications, l’isolation et des intégrations avec KMS et SIEM existants.
À qui cela s’adresse
- Hyperscalers et grands clouds visant à désagréger l’inférence IA pour maximiser l’utilisation et réduire le TCO par token.
- Fournisseurs SaaS avec des charges intensives d’AI générative (assistants, recherche sémantique, copilotes) cherchant à scaler avec une latence prévisible et un coût maîtrisé.
- Entreprises réglementées nécessitant une confidentialité renforcée et des déploiements on-prem ou en colocation, tout en conservant l’accès aux frameworks standards.
Questions fréquentes
Qu’est-ce que le near-memory computing et comment améliore-t-il l’inférence des LLM ?
C’est une architecture qui rapproche le calcul de la mémoire, réduisant ainsi les transferts de données. Pour les LLM/LMM, où le principal goulot d’étranglement est souvent la bande passante mémoire, cela peut entraîner un >10× d’bande passante efficace (d’après Qualcomm) et une moins grande consommation par token.
Quels bénéfices à disposer de 768 GB de LPDDR par carte (AI200) ?
Plus de capacité locale permet des contextes plus longs, batchs plus volumineux et moins d’échanges avec la mémoire externe, ce qui diminue la latence et la consommation, et augmente le coût par réponse.
Comment intégrer des modèles Hugging Face dans AI200/AI250 ?
La suite logicielle de Qualcomm offre un onboarding fluide et un déploiement en clic via Efficient Transformers Library et Qualcomm AI Inference Suite, supportant tous les frameworks majeurs et les techniques de serving désagrégé.
Quand seront disponibles ces solutions et quelles différences entre AI200 et AI250 ?
AI200 est attendu pour 2026, avec un focus sur la capacité mémoire et le TCO. AI250 arrivera en 2027, introduisant une architecture near-memory qui offre, selon Qualcomm, un saut de >10× en bande passante et efficacité énergétique pour l’inférence.
Source : Qualcomm
Anguilla et le boom de l’IA : comment un ccTLD de 1995 est devenu la mine d’or (quasi) inattendue de l’IA