AWS augmente ses « Capacity Blocks » avec GPU pour l’IA : la facture de l’entraînement des modèles recommence à augmenter

AWS augmente ses « Capacity Blocks » avec GPU pour l'IA : la facture de l'entraînement des modèles recommence à augmenter

Une récente modification discrète dans le catalogue d’Amazon Web Services (AWS) a relancé la discussion sur une réalité souvent ignorée par de nombreuses entreprises : l’infrastructure d’IA est non seulement limitée, mais devient aussi de plus en plus coûteuse à planifier. Plusieurs médias spécialisés ont révélé qu’AWS a augmenté d’environ 15 % le prix de ses Capacity Blocks pour ML (blocs réservés pour des charges de machine learning) sur des instances de pointe basées sur NVIDIA H200.

Selon ces sources, la p5e.48xlarge — configurée avec 8 GPU NVIDIA H200 — serait passée de 34,61 à 39,80 dollars par heure dans la plupart des régions, tandis que la p5en.48xlarge aurait connu une hausse de 36,18 à 41,61 dollars par heure. Si cette tendance se confirme durablement, la hausse n’est pas négligeable : pour des projets d’entraînement ou d’inférence intensifs, une augmentation de 15 % peut représenter un coût supplémentaire conséquent sur un trimestre, impactant particulièrement les équipes aux marges serrées ou avec des engagements de capacité liés à des jalons précis.

Ce qui augmente réellement : la réservation de GPU, pas seulement leur utilisation

La clé réside dans le produit concerné : Capacity Blocks for ML ne correspond pas à la tarification à la demande classique, mais à un mécanisme permettant de réserver de la capacité GPU à l’avance avec une fenêtre de planification. Cette approche vise à éviter la rupture de stock lors de phases critiques telles que de longs entraînements, des pics d’inférence, des lancements ou des tests à grande échelle. AWS propose ces blocs comme une solution pour réserver des instances GPU à l’avance, avec des durées variant de courtes à plus longues, afin d’assurer une certaine prévisibilité dans des environnements aux demandes volatiles et aux risques de capacité insuffisante.

Par ailleurs, AWS précise que les prix de ces blocs peuvent évoluer. Sa documentation tarifaire indique que les tarifs peuvent être ajustés (avec une combinaison de reservation fee et de operating system fee), ce qui implique que ces modifications peuvent survenir sans communication officielle immédiate, soulignant une certaine opacité dans la gestion tarifaire.

Pourquoi cela devient critique en 2026 : le “segment premium” de l’IA n’est plus optionnel

L’important ne se limite pas au pourcentage de hausse, mais aussi au type d’instance concerné. Les familles P5e et P5en sont devenues des références pour les charges d’IA avancée. AWS les positionne comme une infrastructure destinée à entraîner et déployer des grands modèles linguistiques (LLM) et modèles génératifs, équipées jusqu’à 8 GPU H200 par instance et conçues pour la performance, la connectivité et la scalabilité en cluster (UltraClusters). Il ne s’agit plus uniquement de “laboratoire” : ces configurations constituent la base de nombreux produits commerciaux actuellement sur le marché.

De plus, AWS distingue entre P5e et P5en sur des aspects critiques pour la performance distribuée. Selon la description du produit, la série P5en inclut des améliorations au niveau de la plateforme (processeur, connectivité, latence) destinées à optimiser les entraînements distribués et la communication. En clair : on ne paye pas seulement pour la GPU, mais pour l’ensemble de l’écosystème permettant d’éviter les goulots d’étranglement lors de l’entraînement parallèle de grands modèles.

Le point difficile : le prix peut fluctuer quand on en a le plus besoin

Ce qui suscite le plus de frustration dans la communauté — et explique le ton à la fois discret et vigilant face à ces ajustements — ce n’est pas seulement cette capacité de tarification (pricing power), mais aussi la perception de changement : modifications en week-end, variations détectées par des tiers, et une certaine opacité dans la gestion des coûts. Sur des marchés concentrés, le client redoute que le fournisseur augmente ses prix juste au moment où le projet est “encore bloqué” : modèles entraînés, pipelines en place, dépendances à des services gérés, données dans un écosystème spécifique, et délais non négociables.

Un schéma de plus en plus évoqué dans le secteur est celui d’une “taxe” sur la capacité en IA. Ce coût ne subit pas seulement la consommation, mais aussi la garantie de disponibilité. Et dans un contexte où la compétition pour la même énergie, l’espace ou la chaîne d’approvisionnement est féroce, les hyperscalaires cherchent à transférer ces tensions de coûts vers les produits à demande inélastique.

Ce que les entreprises doivent surveiller désormais

  1. Distinguer coûts horaires et coûts par résultat : en IA, l’enjeu principal est de maîtriser le coût par entraînement terminé, par million de tokens inférés ou par expérience significative. Une augmentation de 15 % peut être acceptable si elle réduit le risque de manquer de capacité, mais elle peut devenir catastrophique si le projet est déjà surdimensionné.
  2. Réévaluer la stratégie “réservation vs. flexibilité” : les Capacity Blocks apportent de la tranquillité d’esprit, mais aussi une dépendance vis-à-vis du prix du fournisseur au moment de la réservation. En contexte d’incertitude, il peut être judicieux de combiner réservations minimales et solutions flexibles (ou multi-fournisseurs).
  3. Auditer les prix en continu : si le coût peut évoluer, la gouvernance doit aussi s’adapter. FinOps ne doit plus se limiter à un tableau de bord mais devenir un processus intégral : alertes, budgets dynamiques, limites et scénarios alternatifs.
  4. Comparer avec d’autres options : instances équivalentes chez d’autres hyperscalaires, solutions bare metal, ou accords de capacité avec des fournisseurs locaux. La solution la moins chère n’est pas toujours la meilleure, mais elle peut offrir plus de stabilité.

Foire aux questions

Qu’est-ce que les EC2 Capacity Blocks for ML et en quoi diffèrent-ils de l’on-demand ?
Ce sont des blocs de capacité permettant de réserver des instances GPU à l’avance pour des charges de machine learning. Contrairement à l’on-demand, ils réduisent le risque de manquer de capacité lors des pics.

Quels GPU équipent les instances p5e.48xlarge et p5en.48xlarge ?
AWS indique que P5e et P5en sont basées sur NVIDIA H200 et peuvent atteindre 8 GPU H200 par instance.

Augmenter le prix des Capacity Blocks affecte-t-il aussi ceux des autres instances GPU ?
Pas nécessairement. Capacity Blocks sont spécifiques à la réservation/garantie de capacité. Cependant, dans un marché tendu, ces ajustements peuvent finir par influencer d’autres niveaux tarifaires en fonction de l’évolution de la demande.

Comment atténuer l’impact d’une hausse de prix dans les projets d’IA ?
Par des pratiques FinOps (alertes, budgets, métriques par résultat), l’optimisation de l’efficacité (batching, quantification, pipelines améliorés) et des stratégies de résilience (multi-région, multi-fournisseur ou contrats alternatifs).

le dernier