Zyphra a lancé Zyphra Cloud, une nouvelle plateforme d’intelligence artificielle conçue sur une infrastructure AMD, avec pour objectif de déployer en production des modèles à poids ouverts de grande envergure. Cette initiative positionne la société de San Francisco dans un marché de plus en plus concurrentiel : l’inférence de modèles avancés, où il ne suffit plus de bien entraîner, mais où il est crucial de fournir des réponses rapides, stables et à un coût maîtrisé.
La plateforme débute avec Zyphra Inference, un service d’inférence sans serveur permettant d’accéder à des modèles tels que DeepSeek V3.2, Kimi K2.6 et GLM 5.1. Selon la société, ce service associe kernels personnalisés, algorithmes pour le contexte étendu et schémas avancés de parallélisme afin de gérer des cargas de travail longues, telles que la programmation avec agents, la recherche approfondie et l’automatisation de flux complexes.
Cette nouveauté s’accompagne d’un partenariat stratégique avec des GPUs AMD Instinct MI355X déployés sur l’infrastructure de TensorWave, un fournisseur cloud spécialisé en intelligence artificielle et calcul haute performance (HPC), utilisant exclusivement des accélérateurs AMD Instinct. Pour AMD, cette annonce renforce sa stratégie de compétitivité dans l’IA accélérée — un marché où NVIDIA domine grâce à CUDA, son écosystème logiciel et sa forte présence dans les datacenters.
L’inférence, la nouvelle frontière de la compétition
Au cours des dernières années, la majorité des discussions sur l’intelligence artificielle se sont concentrées sur l’entraînement de grands modèles. Cependant, alors que les entreprises commencent à intégrer des assistants, agents et systèmes d’automatisation dans leurs processus opérationnels, c’est désormais l’inférence qui devient stratégique. Chaque requête, chaque session d’un agent ou flux long exige mémoire, bande passante et une architecture capable de maintenir le contexte sans compromettre la latence.
C’est là que Zyphra souhaite se démarquer. La société affirme que Zyphra Inference est conçue pour gérer de grands modèles de type MoE (Mixture of Experts) et des charges de travail exigeant beaucoup de contexte, où les caches KV et de préfixe peuvent occuper une part significative de la mémoire disponible. Dans ces scénarios, disposer de plus de mémoire HBM par GPU peut réduire les recomputations et augmenter le nombre de sessions actives qu’un nœud peut soutenir avant de voir ses performances dégradées.
Les AMD Instinct MI355X illustrent cette approche technique. Selon AMD, chaque GPU possède 288 Go de mémoire HBM3E et un bande passante de 8 TB/s, avec en plus une compatibilité avec des formats à faible précision tels que MXFP8, MXFP6 et MXFP4. Ces formats permettent de servir des modèles économes en mémoire tout en conservant de bonnes performances, même si la qualité finale dépend du modèle, de la quantification et de leur implémentation précise.
Zyphra a également publié une analyse technique comparant, pour un cas d’usage avec Kimi K2.6, la mémoire disponible pour les caches sur un nœud de 8 GPU MI355X versus un nœud de 8 GPU B200. La société indique qu’avec ses hypothèses, un nœud MI355X pourrait maintenir environ 184 agents actifs avec un contexte de 256K, contre une centaine pour l’exemple B200. Il s’agit d’une estimation, non d’un benchmark indépendant, mais elle donne une indication claire de l’objectif : réduire l’attente, conserver plus de sessions en mémoire et améliorer la stabilité lors de traitements sur le long terme.
AMD renforce sa visibilité dans le cloud IA
Ce lancement traduit aussi une volonté stratégique plus large pour AMD. La société tente depuis un certain temps de renforcer sa position dans l’infrastructure d’intelligence artificielle avec la gamme Instinct et la plateforme logicielle ROCm. Le défi majeur ne réside pas seulement dans la commercialisation de puces puissantes, mais aussi dans la démonstration de la robustesse d’une pile technologique capable d’exécuter des modèles avancés en environnement de production.
Avec Zyphra et TensorWave, AMD construit une narration cohérente. TensorWave fournit une infrastructure de calcul basée sur AMD, tandis que Zyphra se concentre sur le logiciel, les modèles, les kernels et le service d’inférence. La synergie souligne une tendance claire : plus de fournisseurs essaient de proposer des alternatives à la pile Nvidia, non pas forcément pour la remplacer immédiatement, mais pour offrir des options en termes de coûts, de disponibilité et de souveraineté technologique.
Le recours à des modèles à poids ouverts enrichit cette stratégie. De plus en plus d’entreprises et de développeurs souhaitent contrôler leur modèle, ses déploiements et ses coûts. DeepSeek, Kimi, et GLM gagnent ainsi en visibilité dans ces échanges, notamment pour ceux qui veulent bâtir des produits en s’appuyant sur des modèles puissants sans dépendre entièrement de solutions propriétaires fermées.
Toutefois, le succès ne se mesurera pas seulement à partir des spécifications techniques. En inférence IA, la stabilité du service, la réactivité réelle, la compatibilité avec les outils courants, la gestion des quotas, la tarification, la documentation et la confiance dans le fournisseur sont autant de facteurs déterminants. Zyphra propose une vision ambitieuse sur le plan technique, mais devra faire ses preuves en conditions réelles de production, avec des clients utilisant l’ensemble du cycle, et pas uniquement un seul modèle.
Une plateforme au-delà de la simple diffusion de modèles
Zyphra Cloud est initialement orientée inférence, mais la société annonce déjà vouloir étendre ses capacités. Parmi les fonctionnalités à venir figurent des services de post-entraînement distribué, d’apprentissage par renforcement, de fine-tuning, des environnements isolés pour agents, ainsi que le développement sur CPU AMD EPYC, sans oublier l’accès à des clusters GPU dédiés et une infrastructure bare-metal.
Ce point de développement est crucial car de nombreux projets IA ne se limitent plus à faire appel à un modèle via une API. Ils nécessitent de personnaliser les modèles, exécuter des agents dans des environnements contrôlés, protéger des données sensibles selon des politiques strictes, ou réserver des capacités pour des chargeurs prévisibles. Si Zyphra parvient à intégrer inférence, entraînement complémentaire et environnement d’agents sur une seule plateforme, elle pourra séduire des équipes techniques recherchant un contrôle opérationnel accru.
Le marché montre aussi une tendance claire. L’IA générative migre d’expériences isolées vers des systèmes plus complexes, capables de fonctionner sur la durée, de consulter diverses sources, de conserver la mémoire de sessions et d’enchaîner des tâches. Ces usages intensifient l’infrastructure, bien plus que de simples chatbots ou assistants de réponse courte. C’est pourquoi les fournisseurs parlent désormais moins de “modèles” isolés, pour évoquer des plateformes complètes d’agents, de contexte étendu et de flux persistants.
Zyphra Cloud est disponible depuis le 4 mai 2026. La société n’a pas encore communiqué publiquement sur les tarifs, les accords de niveau de service ou les limites précises par modèle, éléments essentiels pour juger de sa compatibilité avec des environnements d’entreprise. En l’état, ce lancement représente un signal supplémentaire : la bataille pour l’IA ne se limite pas à l’entraînement des modèles, mais aussi à leur déploiement efficace, avec une gestion de mémoire adaptée, sur des infrastructures de plus en plus spécialisées.
Foire aux questions
Qu’est-ce que Zyphra Cloud ?
Zyphra Cloud est une plateforme d’intelligence artificielle destinée aux développeurs, entreprises et fournisseurs IA, débutant par un service d’inférence sans serveur pour modèles à poids ouverts.
Quels modèles sont disponibles dans Zyphra Inference ?
Le lancement mentionne l’accès à DeepSeek V3.2, Kimi K2.6 et GLM 5.1. La société indique également qu’elle ajoutera de nouveaux modèles ouverts dès leur disponibilité.
Pourquoi les GPUs AMD Instinct MI355X sont-elles importantes ?
Les AMD Instinct MI355X offrent 288 GB de mémoire HBM3E par GPU et un bande passante de 8 TB/s, essentiels pour les inférences sur de grands modèles, avec un contexte étendu et de nombreuses sessions actives.
Zyphra Cloud sera-t-elle uniquement dédiée à l’inférence ?
Non. La société prévoit d’étendre la plateforme à des usages comme le fine-tuning, l’apprentissage par renforcement, des environnements isolés pour agents, des clusters GPU dédiés et des infrastructures bare-metal.
via : zyphra