AMD lance ROCm 6.4 avec des améliorations importantes pour accélérer l’intelligence artificielle et le HPC

AMD lance ROCm 6.4 avec des améliorations importantes pour accélérer l'intelligence artificielle et le HPC

AMD LANCE LA VERSION 6.4 DE SA PLATEFORME DE LOGICIEL ROCm, OPTIMISÉE POUR L’IA ET LE HPC

AMD a dévoilé la version 6.4 de sa plateforme de logiciels ROCm (Radeon Open Compute), apportant une avancée majeure aux développeurs et déployeurs de charges de travail en intelligence artificielle (IA) et en calcul haute performance (HPC) utilisant les GPU AMD Instinct™. Avec cette nouvelle version, la société renforce son engagement envers un écosystème plus rapide, modulaire et facile à gérer, répondant ainsi aux exigences croissantes en matière de performance et de scalabilité dans le secteur.

Des Conteneurs Optimisés pour L’Entraînement et l’Inference

L’un des axes principaux de ROCm 6.4 est l’intégration de conteneurs préoptimisés pour les processus d’entraînement et d’inférence des modèles de langage de grande taille (LLM). Ces conteneurs, prêts à l’utilisation, éliminent la complexité liée à la configuration des environnements personnalisés.

Parmi eux, on trouve :

  • vLLM : conteneur d’inférence pour des modèles tels que Gemma 3, Llama, Mistral ou Cohere, conçu pour assurer une faible latence dès le départ.
  • SGLang : conteneur d’inférence optimisé pour DeepSeek R1 et pour des flux de travail basés sur des agents, avec soutien pour FP8, DeepGEMM et attention multi-têtes.
  • PyTorch et Megatron-LM : conteneurs d’entraînement adaptés pour les GPU Instinct MI300X, optimisés pour des modèles avancés comme Llama 3.1 et DeepSeek-V2-Lite.

Ces solutions permettent aux chercheurs, développeurs et ingénieurs d’infrastructure d’accéder rapidement à des environnements reproductibles, stables et performants.

Améliorations de Performance dans PyTorch

ROCm 6.4 introduit également des améliorations significatives de performance dans PyTorch, en particulier pour les mécanismes d’attention utilisés dans les modèles LLM. Cette nouvelle version comprend :

  • Flex Attention, qui optimise les temps d’entraînement et réduit l’utilisation de mémoire.
  • TopK, qui fonctionne jusqu’à trois fois plus vite, améliorant les performances lors des inférences.
  • SDPA (Scaled Dot-Product Attention), optimisé pour les contextes longs.

Ces améliorations permettent d’entraîner des modèles plus grands de manière plus efficace, avec des coûts computationnels réduits et une plus grande rapidité.

Une Inférence de Nouvelle Génération avec vLLM et SGLang

La nouvelle version améliore également l’inférence à grande échelle, offrant des temps de réponse réduits et un haut niveau de performance pour des modèles avancés tels que Llama 3.1 (8B, 70B, 405B), Gemma 3 ou DeepSeek R1. Dans des tests internes, le conteneur SGLang a atteint des performances record sur les GPU Instinct MI300X avec DeepSeek R1, tandis que vLLM permet un déploiement immédiat de Gemma 3 en milieu productif.

Ces conteneurs, mis à jour chaque semaine ou tous les quinze jours, assurent une stabilité et une continuité opérationnelle dans les environnements de production.

Gestion Automatisée des Clusters GPU avec AMD GPU Operator

Pour simplifier la gestion d’infrastructures complexes, ROCm 6.4 apporte des avancées à l’AMD GPU Operator, un outil qui automatise des tâches telles que les mises à jour de pilotes, la planification des GPU dans les clusters Kubernetes et la surveillance en temps réel.

Les nouvelles fonctionnalités comprennent :

  • Mises à jour automatiques sans interruption (cordon, drain, redémarrage).
  • Compatibilité étendue avec Red Hat OpenShift 4.16–4.17 et Ubuntu 22.04/24.04.
  • Exportation de métriques via Prometheus pour le suivi de l’état des GPU.

Ces améliorations permettent aux équipes informatiques de réduire les risques opérationnels tout en assurant une infrastructure plus résiliente.

Architecture Modulaire avec le Nouveau Pilote GPU Instinct

Enfin, ROCm 6.4 présente un nouveau pilote GPU avec une architecture modulaire, séparant le pilote du noyau de l’espace utilisateur ROCm. Cette innovation offre :

  • Une plus grande flexibilité pour mettre à jour les composants séparément.
  • Une fenêtre de compatibilité prolongée de 12 mois.
  • Une meilleure intégration avec les environnements bare-metal, les conteneurs et les applications tierces.

Cette modularité simplifie la gestion à grande échelle, en particulier pour les fournisseurs de services cloud, les administrations publiques et les entreprises ayant des exigences élevées en matière de stabilité.

Avec ROCm 6.4, AMD confirme son engagement envers le développement d’outils de haute performance pour l’IA et le HPC, offrant aux chercheurs, développeurs et responsables d’infrastructure un environnement plus puissant, flexible et évolutif pour relever les défis technologiques contemporains.

le dernier