D-Matrix présente 3DIMC : la mémoire 3D empilée qui veut détrôner HBM dans l’inférence d’IA

La startup affirme que sa technologie sera jusqu’à 10 fois plus rapide et efficace que la mémoire HBM pour les charges d’inférence, marquant ainsi un changement de paradigme dans la relation entre calcul et mémoire. La mémoire à large bande passante (HBM) est devenue la référence incontournable en intelligence artificielle et calcul haute performance. Utilisée […]
Google présente Ironwood : son TPU pour dominer l’inférence des modèles de raisonnement à l’ère exascale

Google a clôturé ses présentations sur le machine learning lors de la conférence Hot Chips en annonçant une avancée majeure : Ironwood, la nouvelle génération de ses unités de traitement tensoriel (TPU). Conçue spécifiquement pour l’inférence de modèles de langage et le raisonnement à grande échelle, cette nouvelle architecture dépasse largement ses prédécesseurs, qui se […]
NVIDIA et OpenAI portent l’inférence à 1,5 million de tokens par seconde avec les modèles GPT-OSS sur l’architecture Blackwell

NVIDIA et OpenAI ont franchi une nouvelle étape dans la performance de l’intelligence artificielle avec le lancement des modèles open source gpt-oss-20b et gpt-oss-120b, optimisés pour l’architecture Blackwell. Selon la société, le plus grand modèle atteint jusqu’à 1,5 million de tokens par seconde (TPS) sur un système NVIDIA GB200 NVL72, ce qui permettrait de servir […]
Kog AI stimule une révolution dans l’inférence avec AMD MI300X : jusqu’à 3,5 fois plus rapide que les moteurs actuels

Une startup française marque un tournant dans le domaine de l’inférence en intelligence artificielle en annonçant que son moteur d’inférence atteint une vitesse de génération de tokens jusqu’à 3,5 fois supérieure à celle des solutions leaders telles que vLLM et TensorRT-LLM, grâce à l’utilisation de GPUs AMD Instinct™ MI300X. Cette avancée positionne Kog AI à […]
Groq inaugure son premier centre de données en Europe pour dominer l’ère de l’inférence en intelligence artificielle

Alors que de nombreux géants de la technologie continuent de se concentrer sur la formation de modèles de plus en plus volumineux, une nouvelle course discrète mais tout aussi stratégique émerge : celle de l’exécution rapide, efficace et durable de ces modèles. Dans ce domaine, la startup américaine Groq gagne du terrain. Cette semaine, elle […]
Red Hat lance la communauté llm-d pour renforcer l’inférence distribuée de l’IA générative à grande échelle

Red Hat lance un projet innovant pour l’inférence à grande échelle en IA générative Red Hat, leader mondial des solutions open source, a dévoilé le lancement de llm-d, un projet ambitieux destiné à relever l’un des défis majeurs de l’avenir de l’intelligence artificielle générative : l’inférence à grande échelle. Ce développement vise à optimiser les […]
Oracle et AMD stimulent la supercalculativité d’IA : OCI déploiera plus de 130 000 GPU MI355X pour accélérer l’entraînement et l’inférence de modèles à grande échelle.

Oracle et AMD s’associent pour proposer des superclusters IA dans le cloud Oracle a annoncé une alliance stratégique avec AMD afin d’intégrer la dernière génération des accélérateurs AMD Instinct MI355X dans son infrastructure cloud (Oracle Cloud Infrastructure, OCI). Ce partenariat vise à positionner Oracle en tête du marché de la superinformatique dédiée à l’intelligence artificielle […]
NVIDIA réinvente l’inférence en IA : grands clusters, silicium photonique et réseaux ultra-efficaces pour un avenir dominé par des modèles de raisonnement.

NVIDIA Redéfinit l’Infrastructure des Centres de Données pour l’IA Générative NVIDIA se positionne comme un acteur clé de la transition vers des infrastructures centralisées de haute performance, répondant au besoin croissant de modèles génératifs avancés et de charges d’inférence. Sa technologie d’optique co-intégrée redéfinit les normes d’efficacité énergétique dans les centres de données. Traditionnellement, la […]
LM Studio propulse l’IA locale : comment il accélère l’inférence avec les GPUs RTX et CUDA 12.8

LM Studio 0.3.15 : Une Révolution dans l’Exécution Locale des Modèles IA Dans un monde où l’intelligence artificielle générative s’intègre progressivement dans le quotidien des développeurs, chercheurs et utilisateurs avancés, l’exécution locale des modèles de langage (LLM) passe d’une option expérimentale à une solution robuste et performante. Avec la version 0.3.15, LM Studio s’affirme comme […]
Ironwood : la nouvelle TPU de Google pour diriger l’ère de l’inférence dans le cloud

Google lance sa septième génération de TPU, "Ironwood", pour révolutionner l’inférence en IA Lors de l’événement Google Cloud Next 2025, la célèbre entreprise technologique a présenté "Ironwood", son nouveau TPU (Tensor Processing Unit) de septième génération. Conçu entièrement pour accélérer l’inférence des modèles d’intelligence artificielle dans le cloud, "Ironwood" représente un saut technologique sans précédent […]