Refroidissement liquide : la chaîne cachée des centres de données IA

2025, l'année où la refroidissement liquide a cessé d'être « optionnel » dans les centres de données

La refroidissement liquide n’est plus une nouveauté réservée aux superordinateurs et aux laboratoires. L’arrivée de racks équipés de dizaines de GPU, d’accélérateurs d’intelligence artificielle et de serveurs de plus en plus compacts impose une refonte partielle des centres de données, qui fonctionnaient pendant des années selon une logique plus simple : évacuer l’air, contrôler les couloirs froids et chauds, puis améliorer progressivement l’efficacité énergétique.

Ce modèle demeure pertinent, mais ses limites deviennent apparentes dans certains scénarios. Les nouvelles plateformes d’IA augmentent la densité de puissance par rack, concentrent la chaleur au niveau de composants spécifiques et nécessitent une évacuation thermique plus directe. Cela ouvre un marché beaucoup plus vaste, comportant une gamme variée de fournisseurs : fabricants d’unités de distribution de refroidissement (CDUs), racks conçus pour le liquide, cold plates, pompes, vannes, tuyauteries, fluides diélectriques, échangeurs de chaleur, capteurs de détection de fuites, automatisation et services d’intégration.

Du refroidissement par air au liquide : pourquoi le centre de données change

Pendant des années, la refroidissement par air a suffi pour la majorité des charges industrielles. Il reste efficace dans de nombreux contextes de virtualisation, stockage, cloud privé, bases de données traditionnelles ou applications d’entreprise. Le changement s’impose lorsque des salles accueillent des racks à haute densité d’accélérateurs d’IA, où la chaleur générée par CPU, GPU, mémoire HBM et commutateurs internes peut rapidement dépasser ce que la conception traditionnelle est capable d’évacuer efficacement.

La refroidissement liquide ne représente pas une seule technologie unique. Elle peut prendre diverses formes. La plus répandue dans les nouvelles plateformes d’IA est la refroidissement direct au composant, où un cold plate est placé directement sur la CPU, le GPU ou d’autres composants chauds, un circuit de liquide retirant la chaleur. La technique d’immersion consiste à immerger des serveurs ou composants dans des liquides diélectriques, ou à combiner diverses méthodes avec des solutions hybrides, utilisant à la fois l’air et le liquide en fonction de la charge thermique.

Le rapport partagé par les fournisseurs illustre cette complexité. Dans une installation moderne, il ne suffit pas d’acheter un serveur « prêt pour le liquide ». Il faut une architecture thermique complète. Les unités de distribution de refroidissement (CDUs) régulent le débit, la pression et la transfert thermique entre le circuit IT et l’installation. Les manifold et tuyauteries distribuent le liquide aux racks. Pompes, vannes et systèmes de contrôle maintiennent la circulation. Échangeurs de chaleur et refroidisseurs secs évacuent la chaleur. Détecteurs de fuite et systèmes de monitoring minimisent les risques opérationnels.

À chaque niveau, des spécialistes différents interviennent. Vertiv, STULZ, Schneider Electric, nVent, Danfoss, Submer, LiquidStack ou ASUS ESC4000 sont présents dans le domaine des CDUs. Dell Technologies, HPE, Lenovo, Supermicro et Wiwynn proposent des racks et solutions prêtes pour le refroidissement liquide. CoolIT Systems, Asetek, Mitsubishi Electric, Rittal ou Koolance maîtrisent les cold plates et modules. En fluides, des noms comme 3M, Shell, Castrol, ExxonMobil, Chemours ou DuPont illustrent la diversité. La liste n’est pas exhaustive, mais elle démontre que ce marché repose sur une chaîne de qualification très spécialisée, impliquant plusieurs fournisseurs.

L’IA impose une conception par rack, pas uniquement par salle

La différence entre un centre de données classique et un centre prêt pour l’IA ne se limite pas à la puissance en mégawatts. Elle concerne aussi la façon dont cette puissance est distribuée. Un bâtiment peut disposer d’une grande capacité électrique, mais ne pas être adapté à des racks très denses sans un système de distribution, de refroidissement, de tuyauterie, de redondance, de capteurs, de traitement de l’eau ou d’intégration à un système de gestion adequat.

Le NVIDIA GB200 NVL72 est un exemple emblématique de cette nouvelle étape. La plateforme intègre 36 CPU Grace et 72 GPU Blackwell dans un design de rack refroidé par liquide. Ce type d’architecture porte la capacité de calcul de l’IA à l’échelle d’un rack, pas seulement d’un serveur, ce qui oblige à considérer énergie, réseau et refroidissement comme un système intégré. Le rack devient une plateforme thermique et électrique complète, au lieu d’une simple unité de composants empilés.

Pour les opérateurs, cela modifie des décisions fondamentales. La refroidissement liquide peut améliorer l’efficacité, augmenter la densité et réduire la dépendance aux grands volumes d’air pulsé par ventilateurs. Cependant, il soulève également de nouvelles problématiques : compatibilité des matériaux, maintenance, gestion des fuites, qualité du fluide, connexions rapides, formation du personnel, pièces de rechange, monitorage et coordination entre fabricants de serveurs et infrastructure.

Les CDUs occupent une place cruciale. Elles servent d’interface entre la partie informatique (IT) et l’infrastructure technique (facility). Dans de nombreux cas, le liquide qui circule autour des serveurs n’est pas identique à celui qui circule dans le système principal. Cette séparation permet un meilleur contrôle de la pression, de la température, de la chimie du fluide et de la sécurité. Elle permet aussi qu’un problème dans un circuit ne compromette pas l’ensemble de la station.

Les détecteurs de fuite jouent également un rôle clé. Dans un environnement où le liquide circule à proximité d’équipements critiques, la fiabilité opérationnelle dépend fortement de capteurs, alertes, vannes, procédures et une conception preventive. Des entreprises comme Vertiv, Raritan, Schneider Electric, nVent, Emerson, Honeywell, Sensaphone ou Uptime Intelligence figurent dans ce domaine de la surveillance. La diffusion à grande échelle de la refroidissement liquide dépendra de la capacité à en faire une solution maîtrisable, perçue comme sûre plutôt que risquée par les équipes opérationnelles.

Une opportunité industrielle, mais pas une solution universelle

L’évidence commerciale est claire : chaque nouveau cluster d’IA exige plus de densité, plus de refroidissement et une meilleure capacité d’intégration. Cela crée des opportunités pour les fournisseurs d’ingénierie, fabricants de composants, intégrateurs, opérateurs de centres de données et spécialistes en maintenance. Cela favorise également des collaborations plus étroites — notamment entre fabricants de serveurs, fabricants de puces, sociétés de refroidissement et fournisseurs de services cloud.

Néanmoins, il faut éviter l’exagération. La refroidissement liquide ne remplacera pas l’air dans tous les data centers. L’Uptime Institute souligne que son déploiement reste progressif, et que de nombreuses installations utilisent encore principalement des systèmes traditionnels. La grosse motivation pour changer provient surtout des densités élevées par rack, et non d’une tendance universelle applicable à toutes les charges.

Concrètement, un centre pourra continuer à utiliser des zones refroidies à l’air pour des charges classiques, tout en réservant des zones liquides pour l’IA, le HPC ou des serveurs à haute densité. Cette coexistence sera courante durant plusieurs années. De plus, il n’est pas nécessaire de transformer entièrement une salle : il suffit de préparer une zone spécifique pour accueillir de nouveaux racks.

L’intégration avec l’infrastructure existante est également déterminante. Échangeurs de chaleur, refroidisseurs secs, chillers, réseaux de distribution d’eau, automatisation et services facilitent la conception d’un système efficace et facilement maintenable. Parmi les fournisseurs, on trouve Kelvion, Alfa Laval, Modine, GPX Cooling, Güntner, Carrier, Trane ou Johnson Controls, aux côtés de grands acteurs de l’infrastructure comme Schneider Electric, Vertiv, STULZ, Eaton ou Danfoss.

La question de la durabilité est cruciale. La refroidissement liquide peut réduire la consommation électrique liée aux ventilateurs et permettre des températures de fonctionnement plus favorables. Toutefois, elle ne résout pas à elle seule le problème du coût énergétique de l’IA. Elle oblige aussi à reconsidérer la consommation d’eau, la composition des fluides, le traitement thermique, la récupération de chaleur et l’impact environnemental. La performance réelle dépendra d’un design global, et non d’une simple certification commerciale.

L’expansion de l’IA transforme la gestion thermique en un élément stratégique. Autrefois considéré comme une composante invisible, le refroidissement peut désormais influencer le choix des serveurs, le nombre de GPU par rack, le coût énergétique des clusters et la rapidité avec laquelle un opérateur peut augmenter sa capacité de production.

La grande leçon à retenir est que la refroidissement liquide ne se limite pas à l’installation de tuyaux : c’est une chaîne complète de conception, d’approvisionnement, d’exploitation et de services. Les centres de données souhaitant accueillir la prochaine génération d’IA devront aussi penser à ce qui concerne les puces, le réseau et le stockage, mais également à la gestion des flux, aux échangeurs de chaleur, aux capteurs, aux fluides et à la formation du personnel qualifié, capable d’opérer dans ce nouvel environnement en toute sécurité.

Questions fréquentes

Qu’est-ce qu’une CDU en refroidissement liquide ?

Une CDU, ou Coolant Distribution Unit, est une unité qui contrôle le transfert thermique, le débit et la pression du liquide de refroidissement entre les racks IT et le système de refroidissement de l’installation.

La refroidissement liquide remplacera-t-il totalement l’air ?

Pas dans l’immédiat. La coexistence sera probablement la règle : l’air pour des charges standard, la refroidissement liquide pour les racks à forte densité, l’IA, le HPC ou les plateformes utilisant des GPU à forte consommation.

Quelle est la différence entre direct-to-chip et immersion ?

En direct-to-chip, le liquide circule à travers des cold plates placés directement sur les composants. En immersion, les équipements ou composants sont immergés dans un fluide diélectrique qui absorbe la chaleur.

Pourquoi l’IA nécessite-t-elle plus de refroidissement liquide ?

Parce que les accélérateurs d’IA concentrent beaucoup de puissance dans un espace réduit. Cela augmente la densité thermique par rack, compliquant l’évacuation efficace de la chaleur avec seulement de l’air.

source : LinkedIN

le dernier