
Microsoft présente Maia 200 : l’accélérateur d’inférence avec lequel elle veut réduire le coût de la « économie du jeton »
Microsoft a dévoilé Maia 200, son nouvel accélérateur dédié à l’inférence (génération de tokens), conçu pour réduire significativement les coûts et améliorer l’efficacité de l’exécution de modèles d’IA à grande échelle dans les centres de données. La société le présente comme un élément central de son infrastructure hétérogène destinée à supporter multiples modèles — y compris les GPT-5.2 d’OpenAI — au sein de Microsoft Foundry et de Microsoft 365 Copilot. Cette annonce intervient à un moment où l’industrie ne mesure plus uniquement le leadership en « FLOPS bruts », mais privilégie désormais le rapport performance/coût, la capacité mémoire, l’efficacité énergétique et le flux de données. Dans ce contexte, Microsoft vise deux avantages majeurs : réduire le coût de l’inférence (où




