L’inférence d’IA pressionne déjà les CPU et Intel voit une plus grande tension sur le marché

L’intelligence artificielle ne dépend plus uniquement des GPU, de la mémoire et des SSD. Intel a clairement indiqué lors de ses derniers résultats que la prochaine grande force du marché pourrait provenir des CPU pour serveurs, soutenues par le passage du entraînement de modèles à des charges axées sur l’inférence, les agents IA et des […]
L’inférence de l’IA chutera de plus de 90 %, mais la facture totale ne diminuera pas autant

L’économie de l’Intelligence Artificielle générative va radicalement se transformer au cours de cette décennie. Selon une nouvelle prévision de Gartner, d’ici 2030, l’inférence sur un grand modèle de langage de 1 billion de paramètres coûtera aux fournisseurs d’IA plus de 90 % de moins qu’en 2025. La société souligne également que les LLM de 2030 […]
NVIDIA arrive à GTC 2026 avec l’inférence au centre et des doutes sur le GPU unique

NVIDIA lance aujourd’hui la GTC 2026 à San José dans un contexte marqué par une approche différente de celle des années précédentes. La conférence se déroule du 16 au 19 mars, et la keynote de Jensen Huang est prévue pour ce lundi, lors d’un événement où la société elle-même annonce des nouveautés concernant l’Intelligence Artificielle, […]
NVIDIA Groq 3 LPX : le nouveau moteur pour l’inférence à faible latence

La grande course de l’IA ne se limite plus à la maîtrise de modèles de plus en plus gros. De plus en plus, le véritable goulet d’étranglement réside dans l’inférence: le temps nécessaire à un système pour commencer à répondre, la latence accumulée lorsque plusieurs agents interagissent et le coût pour maintenir cette rapidité à […]
Vultr s’appuie sur NVIDIA et NetApp pour accélérer l’inférence d’IA

La carrière de l’intelligence artificielle d’entreprise ne tourne plus uniquement autour de l’entraînement de modèles de plus en plus volumineux. Le véritable goulet d’étranglement commence à se situer ailleurs : comment déployer ces modèles, les alimenter avec des données pertinentes, assurer leur scalabilité et maîtriser les coûts d’inférence lors de leur mise en production. C’est […]
Akamai veut amener l’inférence de l’IA à la périphérie avec 4 400 emplacements

Akamai marque une étape importante dans sa stratégie d’Intelligence Artificielle en dévoilant AI Grid Intelligent Orchestration, une nouvelle couche d’orchestration pour l’inférence distribuée. Selon l’entreprise, cette innovation transforme son réseau en la première mise en œuvre à l’échelle mondiale du design de référence NVIDIA AI Grid. Elle s’appuie sur l’infrastructure de Akamai Inference Cloud et […]
Akamai lance AI Grid Intelligent Orchestration pour l’inférence distribuée dans 4 400 emplacements périphériques

Akamai Technologies (NASDAQ : AKAM) franchit une étape majeure dans le développement de l’intelligence artificielle en annonçant la première mise en œuvre mondiale du Design de Référence NVIDIA AI Grid. Cette initiative intègre l’infrastructure d’IA de NVIDIA au sein du réseau mondial d’Akamai et exploite des systèmes d’orchestration intelligente des charges de travail pour couvrir […]
AWS amènera Cerebras à Bedrock pour accélérer l’inférence IA

Amazon Web Services souhaite renforcer l’un des aspects les plus sensibles de la course actuelle à l’intelligence artificielle : la rapidité de l’inférence. AWS et Cerebras ont annoncé une collaboration dans laquelle la plateforme cloud d’Amazon déployera des systèmes Cerebras CS-3 dans ses centres de données, les rendant accessibles aux clients via Amazon Bedrock. Selon […]
Akamai mise sur l’ère de l’inférence et déploiera des milliers de GPU NVIDIA Blackwell sur une plateforme d’IA distribuée

Historiquement associée au monde du CDN et à la distribution de contenus, Akamai cherche à se repositionner d’ici 2026 sous une nouvelle identité : GPU, inférence et intelligence artificielle distribuée. La société a annoncé l’acquisition de des milliers de GPUs NVIDIA Blackwell dans le but de créer l’une des plateformes d’IA les plus déployées au […]
OpenAI renforce son engagement dans l’inférence : NVIDIA prépare une puce avec la technologie de Groq et la société réserverait 3 GW de capacité

La course à l’intelligence artificielle ne se résume plus uniquement à l’entraînement de modèles massifs. L’attention s’est déplacée vers un domaine moins visible, mais crucial pour le secteur : l’inférence, c’est-à-dire la capacité de répondre à des millions de requêtes en temps réel avec de faibles latences et des coûts maîtrisés. Dans cette optique, plusieurs […]