Intel annonce « Crescent Island » : une nouvelle GPU pour l’ère de l’inférence IA avec 160 Go de LPDDR5X et une microarchitecture Xe3P

Info Cloud

X (Twitter) Facebook Pinterest LinkedIn Email

Intel a introduit une nouvelle pièce sur l’échiquier de l’intelligence artificielle dans les centres de données. Lors du sommet mondial OCP 2025, l’entreprise a annoncé Crescent Island, nom de code de sa prochaine GPU pour centres de données optimisée pour l’inférence, avec un objectif clair : plus de capacité mémoire par watt, refroidissement à l’air dans les serveurs d’entreprise et une pile logicielle ouverte qui facilite le déploiement à grande échelle. Selon le CTO d’Intel, Sachin Katti, l’IA passe de l’entraînement statique à l’inférence en temps réel et partout, portée par la fameuse IA agentique. Et si le présent consiste à inférer — pas seulement à entraîner —, l’infrastructure doit changer de marche.

Loin de l’éclat publicitaire des records d’entraînement, Crescent Island vise l’économie réelle de l’inférence : latence, performance par watt, capacité mémoire pour des contextes longs, et coût total de possession. Pour cela, Intel associera microarchitecture Xe3P (axée sur l’efficacité énergétique), 160 Go de mémoire LPDDR5X directement sur la carte, et supporte une large gamme de types de données — un clin d’œil à ceux qui exploitent des précisions réduites dans les grands modèles linguistiques (LLMs) et aux fournisseurs de “tokens-as-a-service”. La société prévoit des échantillons pour les clients dans la seconde moitié de 2026, tout en affinant la pile logicielle unifiée et ouverte dans les Séries B de GPU Arc Pro, avec pour objectif d’aligner Crescent Island avec un écosystème et des bibliothèques mûrs dès le premier jour.

Pourquoi une GPU « pour inférence » maintenant

La conversation entre 2023 et 2025 a été dominée par des entraînements colossaux ; cependant, la demande de masse se concentre sur l’inférence : des millions de requêtes simultanées, avec des fenêtres de contexte toujours plus longues, des chaînes d’outils, des agents appelant des APIs et des coûts sensibles au token. C’est là que les centres de données se battent pour plus de débit par rack, moins de consommation et une pile logicielle fluide.

Intel positionne Crescent Island précisément à cette intersection :

Efficacité énergétique comme première priorité (Xe3P).
Capacité mémoire locale de 160 GB LPDDR5X pour héberger des modèles et des caches KV plus grands sans pertes de performance.
Support étendu des types de données pour ajuster précision et coût selon la tâche et le client.
Refroidissement par air dans des serveurs d’entreprise, une décision pragmatique pour déployer rapidement sans redessiner la salle.

Cette combinaison vise à maximiser l’efficience à un moment où les volumes de tokens augmentent et où le capex/opex de l’inférence commence à dicter la durabilité des services d’IA.

160 GB de LPDDR5X : une capacité avant l’exotisme

Une des décisions les plus remarquables est l’utilisation de LPDDR5X plutôt que de mémoires exotiques. La capacité totale — 160 GB — est le point fort. Pour les modèles quantifiés, mélanges d’experts et contextes longs, disposer de plus de mémoire locale réduit les échecs de cache et le trafic réseau, aidant à maintenir les caches KV et à rassembler les tokens en paquets avec moins de fragmentation.

Le débit est-il inférieur à d’autres solutions ? Intel n’a pas publié de chiffres, et l’annonce ne compare pas directement ; ce qui est clair, c’est l’orientation vers un équilibre : capacité×efficacité×air avec un coût contenu pour que le coût total par token soit maîtrisé.

Microarchitecture Xe3P : la performance par watt au cœur

Le communiqué positionne Xe3P comme moteur d’efficacité par watt. Pour l’inférence, l’évolutivité horizontale et la concurrence comptent autant que le pic de FLOPS. La promesse d’Intel est de combiner Xe3P avec :

Un support étendu des types de données (de formats haute précision à des précisions réduites pour les LLMs).
Une orchestration ouverte dans une pile unifiée pour systèmes hétérogènes (CPU Xeon 6, GPU Intel et, si besoin, autres accélérateurs).
Des systèmes conçus pour l’air, minimisant la friction opérationnelle dans des serveurs standard.

Intel affine sa pile en la testant et en la renforçant dans la Série B d’Arc Pro, pour fournir un package d’optimisations (compilateurs, kernels, runtime) avant que Crescent Island ne soit livrée aux premiers clients.

Logiciel ouvert et systèmes hétérogènes : l’autre moitié de l’histoire

Intel insiste sur le fait que l’inférence ne se résout pas uniquement avec une puce. Il faut un système hétérogène et une pile logicielle ouverte pour assigner la bonne tâche au bon silicium. En pratique, cela signifie des planificateurs, des runtimes et des compilateurs capables de comprendre les tailles de lot, les caches KV, le préchargement/décodage, les agents et les opérateurs spécialisés, ainsi que une télémétrie à l’échelle du rack pour gérer les charges en temps réel.

C’est en phase avec l’esprit du Open Compute Project (OCP) : spécifications ouvertes pour le hardware et l’opération, valorisant une culture facilitant l’interopérabilité. Le message d’Intel aux opérateurs : il n’y aura pas de “silos” : la GPU s’intègre dans des systèmes ouverts et orchestrés, coexistant avec Xeon 6 et d’autres composants déjà déployés.

Air, pas liquide : une décision de déploiement

Une autre clé du message est le choix délibéré du refroidissement par air. En 2025, nombreux sont les opérateurs qui n’ont pas encore migré leurs salles vers du liquide ; intégrer des accélérateurs air-first accélère la mise en production, évite de redessiner les passerelles thermiques et raccourcit le chemin entre le POC et l’échelle. Crescent Island s’affirme ainsi comme une option pour les fermes existantes cherchant à augmenter leur capacité d’inférence sans travaux majeurs.

Feuille de route : quand et comment

Intel prévoit de mener des essais clients dans la seconde moitié de 2026. D’ici là, le travail principal sera de faire mûrir la pile (compilateurs, bibliothèques, drivers), de perfectionner les charges réelles —LLMs avec contextes longs, RAG, agents— et de réajuster les coûts pour des systèmes air-cooled avec une grande capacité mémoire par GPU.

Parallèlement, la société souligne son offre de bout en bout : de l’AI PC (pour le client) au centre de données, en passant par l’edge industriel, le tout sur Xeon 6 et GPUs Intel. La grande idée : l’inférence en priorité, et Crescent Island est conçu précisément pour ce monde.

Ce que cela signifie pour opérateurs et développeurs

Pour les opérateurs de centres de données

Capacité locale (160 GB) pour modèles quantifiés et fenêtres de contexte longues sans dépendance excessive au réseau.
Refroidissement à l’air classique et densités compatibles avec les configurations existantes.
Une pile ouverte facilitant l’intégration avec l’observation et l’orchestration déjà en place.

Pour les équipes de plateforme et MLOps

Support étendu des types de données pour balaancer qualité et coût selon le déploiement.
Runtimes unifiés entre CPU et GPU pour réduire la friction du multi-cible.
Une voie d’adoption pragmatique : développer et tester dès maintenant sur Arc Pro Série B, avec une portabilité vers Crescent Island.

Pour ceux qui proposent l’IA en mode service

Message ciblé aux fournisseurs de “tokens-as-a-service” : efficacité par token et capacité pour un cache KV plus grand, clé pour respecter les SLA de latence et maîtriser les coûts.

Ce que Intel n’a pas dit (et que tout le monde va demander)

L’annonce ne comprend pas de benchmarks ni de comparaisons de bande passante ou de TOPS/FLOPS face à d’autres solutions. Pas non plus de chiffres précis sur la consommation du tableau ou la densité par rack. Sur le stand Intel (Expo Hall #B3), les visiteurs pourront demander plus de contexte, mais le message de lancement est clairement positionné : architecture Xe3P, 160 GB LPDDR5X, refroidissement à l’air, pile ouverte et feuille de route jusqu’en 2026.

Signaux à surveiller en 2026

Maturité de la stack : compilateurs, kernels et bibliothèques optimisés pour pré-chargement/décodage, cache KV et opérateurs RAG.
Modèles de référence : LLMs et VLMs fonctionnant out-of-the-box avec des performances normalisées et des guides de coûts.
Intégration avec Xeon 6 et télémétrie unifiée pour un réglage dynamique des charges hétérogènes.
Coût total par token (TCO) : l’indicateur clé qui, en définitive, déterminera quels accélérateurs domineront l’inférence massive.

Conclusion

Avec Crescent Island, Intel répond à la grande question de 2025 : comment faire évoluer l’inférence sans faire exploser les coûts ni reconstituer tout le data center. La recette combine efficacité par watt (Xe3P), capacité mémoire (160 GB LPDDR5X), support de données flexible, refroidissement à l’air et une pile logicielle ouverte et unifiée. Reste à voir les benchmarks, prix et dates de lancement, mais la direction est claire : l’inférence est la frontière de la compétition, et Intel veut y prendre une longueur d’avance.

Questions Fréquemment Posées

Qu’est-ce exactement que Crescent Island d’Intel et à quoi sert-elle ?
C’est la prochaine GPU pour centres de données d’Intel, optimisée pour l’inférence IA, avec la microarchitecture Xe3P, 160 GB de LPDDR5X et support multi-types de données. Elle est conçue pour serveurs d’entreprise à refroidissement à l’air et pour des systèmes hétérogènes en complément de Xeon 6.

Quand Crescent Island sera-t-elle disponible ?
Intel prévoit des échantillons pour clients à la seconde moitié de 2026. D’ici là, la pile logicielle ouverte et unifiée est en cours de développement et de test sur GPUs Arc Pro Série B pour un lancement robuste.

Pourquoi 160 GB de LPDDR5X pour une GPU IA ?
Parce que la capacité mémoire locale est critique pour l’inférence : elle permet d’héberger des modèles quantifiés, des caches KV importantes et des longs contextes sans pénaliser la latence. LPDDR5X offre un bon équilibre entre capacité, efficacité énergétique et coût dans des cartes air-cooled.

La pile logicielle sera-t-elle ouverte ? Qu’entend-on par “système hétérogène” ?
Oui. Intel prône une pile ouverte et unifiée pour CPU et GPU afin de permettre d’assigner la tâche appropriée au bon silicium. Cela inclut des planificateurs, des runtimes et des compilateurs capables de gérer les tailles de lot, les caches KV, le préchargement/décodage, les agents et les opérateurs spécialisés. Tout cela avec une télémétrie en rack pour piloter en temps réel la charge.