Google alerte : la mémoire, pas le calcul, est le vrai goulot d’étranglement des grands modèles d’IA. La bande passante mémoire est souvent le facteur limitant pour l’inférence, pas la puissance GPU. Solutions : architectures HBM plus rapides, quantification, caches KV optimisés. Cela explique pourquoi SK hynix mise sur la HBM5 hybride et pourquoi la demande dépasse l’offre chez AWS Graviton.
Questions fréquentes
Pourquoi la mémoire freine-t-elle ?
Les LLM nécessitent plus de mémoire que de calcul pour paramètres, contexte et caches d’attention.
Plus limitante que le GPU ?
Pour l’inférence de grands modèles, oui selon Google.
Solutions ?
HBM plus rapide, quantification, caches KV optimisés, modèles efficients en mémoire.