AMD démocratise l’intelligence artificielle avec un support local pour les modèles GPT-OSS d’OpenAI

Info Cloud

X (Twitter) Facebook Pinterest LinkedIn Email

Une nouvelle étape dans la démocratisation de l’intelligence artificielle de consommation a été franchie avec l’introduction du processeur Ryzen AI Max+ 395. Ce dernier permet désormais d’exécuter localement le modèle GPT-OSS 120B directement depuis un ordinateur portable, une avancée majeure pour le secteur.

OpenAI a lancé ses modèles GPT-OSS 20B et GPT-OSS 120B, des modèles de langage à poids ouverts conçus pour offrir des capacités de raisonnement avancé et une exécution en local, sans dépendance au cloud. En parallèle, AMD a annoncé une prise en charge native de ces modèles dans son écosystème matériel, positionnant ses processeurs Ryzen AI Max+ et ses cartes graphiques Radeon RX comme les premières solutions grand public capables de supporter cette charge de travail intensive.

Les modèles GPT-OSS, successeurs ouverts de GPT-2, misent sur transparence, reproductibilité et une utilisation en local. Le GPT-OSS 20B, avec ses 20,9 milliards de paramètres, vise des applications exigeantes en langage naturel en temps réel, tout en étant plus accessible en termes matériel. Le GPT-OSS 120B, quant à lui, avec 116,8 milliards de paramètres, offre des performances proches de celles des modèles utilisés en datacenter, mais s’exécute désormais sur des matériels personnels haut de gamme.

L’innovation d’AMD réside dans la commercialisation du Ryzen AI Max+ 395, intégré dans des appareils légers comme le ASUS ROG Flow Z13. Avec une mémoire totale de 128 Go, dont 96 Go de mémoire graphique dédiée, ce processeur est aujourd’hui le seul capable d’exécuter le GPT-OSS 120B en local avec un rendement suffisant pour des applications réelles.

Selon des tests internes réalisés en août 2025, la puce atteint des vitesses pouvant aller jusqu’à 30 tokens par seconde, ce qui permet aux développeurs, chercheurs et utilisateurs avancés de travailler avec des modèles de grande taille sans recourir à des serveurs distants. La prise en charge du protocole Model Context (MCP) facilite également la gestion de sessions de conversation prolongées et de charges complexes, jusqu’ici réservées aux infrastructures cloud avec une capacité mémoire importante.

Pour ceux cherchant une solution plus accessible, la Radeon RX 9070 XT de 16 Go offre une performance remarquable pour faire fonctionner le GPT-OSS 20B, permettant des vitesses d’interaction rapides et réduisant le délai de réponse initiale, amélioration cruciale pour les assistants vocaux ou chatbots locaux.

AMD propose un guide détaillé pour installer LM Studio, une plateforme d’inférence locale, et configurer ces modèles sur des machines équipées de ses processeurs et cartes graphiques. L’installation requiert notamment la mise à jour des pilotes AMD Adrenalin 25.8.1 ou ultérieurs, ainsi que le réglage de la mémoire graphique variable pour optimiser les performances.

L’arrivée de ces solutions marque une révolution puisque, jusqu’à présent, le déploiement de modèles de langage de plus de 100 milliards de paramètres nécessitait une infrastructure coûteuse et spécialisée. Désormais, l’inférence à grande échelle devient accessible depuis un PC personnel, offrant plus de confidentialité, de sécurité et d’indépendance face aux services cloud.

Ce développement stratégique place AMD comme un acteur majeur dans le paysage de l’intelligence artificielle, du edge computing à l’utilisateur final, en proposant des alternatives viables aux solutions classiques basées sur le cloud.

Sources : AMD, Noticas IA