Inference | Actualite Cloud

Cerebras contre NVIDIA : pourquoi une puce géante peut gagner en inférence

OpenAI regarde Cerebras pour renforcer sa puissance d'inférence et réduire sa dépendance à d'autres fournisseurs

Cerebras remet une nouvelle fois sur la table une question gênante pour l’industrie de l’intelligence artificielle : et si le problème ne résidait pas dans le nombre accru de GPU, mais dans une dépendance excessive à une architecture conçue à l’origine pour d’autres types de charges ? Andrew Feldman, cofondateur et CEO de Cerebras, défend […]

AMD : l’IA agentique amplifie la demande CPU en datacenter

AMD renforce son engagement pour « l'IA pour tous » lors du CES 2026 : Helios, nouvelles Instinct et un coup de pouce financier à l'éducation

Au premier trimestre 2026, AMD a réalisé 10,25 milliards de dollars de chiffre d’affaires, soit +38 % sur un an. Le segment data center a dépassé 5,8 milliards, en hausse de 57 %. Lisa Su, PDG de la société, a choisi la conférence de résultats pour trancher un débat récurrent dans le secteur : l’IA […]

Meta et Broadcom : des puces IA maison en 2 nm à l’échelle du gigawatt

Meta et Broadcom renforcent leur alliance pour créer leurs propres puces d'IA

Meta franchit un cap dans sa stratégie de silicium propriétaire. Le géant des réseaux sociaux a annoncé le 14 avril une extension majeure de sa collaboration avec Broadcom pour co-développer plusieurs générations de ses accélérateurs MTIA (Meta Training and Inference Accelerator). L’accord ne se limite pas au silicium : il couvre aussi l’emballage avancé et […]

Meta et CoreWeave : 21 milliards pour dominer l’inférence IA

CoreWeave valide le "Platinum ClusterMAX™" de SemiAnalysis : ce qui se cache derrière la performance qui la couronne comme le cloud d'IA numéro 1

Meta a renforcé sa collaboration avec CoreWeave à travers un nouveau contrat d’infrastructure dédié à l’IA, d’une valeur approximative de 21 milliards de dollars avec une échéance fixée à décembre 2032. Annoncée conjointement par CoreWeave et détaillée dans un document soumis à la SEC, cette opération consolide la position de l’entreprise en tant que l’un […]

IONOS lance un serveur GPU NVIDIA Blackwell pour l’IA en Europe

IONOS présente un nouveau serveur GPU haute performance avec la technologie NVIDIA Blackwell

IONOS, une entreprise européenne spécialisée dans la digitalisation et les services cloud, a annoncé le lancement du serveur dédié IP4-50 GPU, conçu spécifiquement pour les applications d’intelligence artificielle. Ce modèle intègre l’architecture Blackwell de NVIDIA, qui domine le marché GPU IA en 2026, via la carte NVIDIA RTX PRO 6000, dotée de 96 Go de […]

Intel et SambaNova : redéfinir l’inférence pour l’IA agentique

Intel et SambaNova redessinent l'inférence pour la nouvelle IA agentique

Le domaine de l’IA se concentre désormais sur l’efficacité de l’exécution en production. Intel et SambaNova ont annoncé une architecture conjointe pour l’IA agentique — des modèles qui compilent du code, appellent des outils, consultent des bases et orchestrent des workflows complexes. Cette proposition remet en question l’idée que tout le futur de l’inférence repose […]

Anthropic et CoreWeave : un accord pluriannuel pour Claude dans le cloud IA

Anthropic a conclu un accord pluriannuel avec CoreWeave pour utiliser son infrastructure cloud dans le développement et le déploiement de la famille de modèles Claude. CoreWeave a confirmé que la capacité contractée commencera à être déployée plus tard cette année. Anthropic possède déjà un partenariat stratégique avec Amazon (8 milliards investis, AWS comme fournisseur cloud […]

Uber et AWS : Trainium3 au service du moteur d’IA de la mobilité

Uber étend son accord avec AWS et teste Trainium3 pour son moteur d'IA

Uber a renforcé sa collaboration avec AWS en étendant l’utilisation de Graviton4 pour ses Trip Serving Zones (infrastructure temps réel de chaque trajet/livraison) et en testant Trainium3 pour l’entraînement de modèles IA. Ce dépassement de la simple migration cloud illustre comment Uber choisit le type de silicium le plus adapté à chaque charge. AWS est […]

NVIDIA Blackwell domine 2026, Rubin risque un retard selon TrendForce

Blackwell dominera 2026 et Rubin risque de retard, selon TrendForce

NVIDIA Blackwell dominera 2026 selon TrendForce, avec une demande supérieure à l’offre. Rubin risque un retard qui prolongerait la domination de Blackwell. Ce contexte explique pourquoi Meta et Broadcom développent leurs propres puces MTIA en 2 nm et pourquoi NVIDIA investit 1 Md$ dans Nokia pour transformer le télécom en infrastructure IA. La pénurie de […]

Google alerte : la mémoire freine les grands modèles d’IA

TurboTax : Google met en garde contre la mémoire qui entrave les grands modèles

Google alerte : la mémoire, pas le calcul, est le vrai goulot d’étranglement des grands modèles d’IA. La bande passante mémoire est souvent le facteur limitant pour l’inférence, pas la puissance GPU. Solutions : architectures HBM plus rapides, quantification, caches KV optimisés. Cela explique pourquoi SK hynix mise sur la HBM5 hybride et pourquoi la […]