Madrid. 2025. La IA ha dejado de ser una demostración de laboratorio: se ha convertido en una estrategia empresarial. Pero su lado B revela una demanda eléctrica y térmica sin precedentes. Los ranurados GPU de nueva generación consumen entre 50 y 80 kW de manera sostenida —y algunos pilotes superan los 100 kW— mientras que muchos centros de datos heredados siguen dimensionados para 5 a 10 kW por rack. Incluso los hiperescalares ubicados en polos como Ashburn (N. Virginia), Dublín o Singapur enfrentan moratorias o cupos de conexión. En este contexto, bare-metal deja de ser un “nicho” y se afirma como una pieza clave para entrenar e inferir LLMs a gran escala sin colapsar la infraestructura eléctrica ni comprometer los objetivos ESG.
“Lo que veremos en 2025 es simple: o te pasas a bare-metal de alta densidad con refrigeración líquida y arquitectura eléctrica a 415 V, o no podrás escalar tus clústeres de IA en Europa sin enfrentarte a la red. Y enfrentarse a la red significa meses o años de retraso”, resume David Carrero, cofundador de Stackscale (Grupo Aire), proveedor europeo de cloud privado y bare-metal.
A continuación, una guía práctica —con observaciones de Carrero— para diseñar, desplegar y operar racks de 80 kW sin romper la red ni degradar tus SLA.
¿Por qué bare-metal para IA?
Acceso directo al hardware. Los overheads de virtualización afectan precisamente donde más duele: latencia entre GPU, acceso a HBM/DRAM, PCIe/NVLink, pinned memory, NUMA. En entrenamiento distribuido (all-reduce) y en inferencia de baja latencia, cada microsegundo cuenta.
Hiperdensidad real. Con bare-metal puedes empaquetar nodos HGX o equivalentes en 60-80 kW por rack con refrigeración líquida directa al chip o inmersión, y PDUs diseñados para 415 V trifásico. La virtualización en estos perfiles suele ser contraindicada.
Cumplimiento y perímetro. La RGPD, los sectores financiero y sanitario o datos sensibles requieren aislamiento físico, trazabilidad y control del plano de datos. Bare-metal asegura el cumplimiento y se integra con nubes públicas para la parte elástica o no sensible.
“Nos exigen dos cosas: rendimiento predecible y gobernanza. El rendimiento se logra con acceso directo y topologías NVSwitch bien cableadas; la gobernanza con hardware dedicado, métricas y trazabilidad por rack”, explica Carrero.
El reto eléctrico y térmico (y cómo abordarlo)
1) Ingeniería eléctrica “de arriba abajo”
- 415 V trifásico y busways redundantes capaces de cargas continuas de 80 kW.
- PDUs de alta corriente (con medición por fase) y selectividad en protecciones para evitar cortes en cascada.
- Arranque secuenciado (staggered power-on) y gestión de picos (inrush, brownouts).
- Medición granular (por rack, por PDU, por servidor) para FinOps eléctrico (€/kWh, €/modelo, €/token).
“Sin medición en PDU y rack y sin arranques escalonados, es fácil que las protecciones corten la corriente. FinOps eléctrico es la nueva disciplina: saber cuánto cuesta cada época, cada fine-tune,” lanza Carrero.
2) Refrigeración: de aire a líquida (y a inmersión)
- Direct-to-chip (D2C): placas frías en GPU/CPU/HBM/VRM; circuitos primario/secundario con glicol o agua tratada; bypass y control mediante delta-T.
- Inmersión de 1/2 fases para cargas >80-100 kW/rack o cuando el aire no es viable; tanques modulares, bombas y intercambiadores hacia dry-coolers.
- Menos CRAC/CRAH: los pasillos fríos y calientes ya no son suficientes a estas densidades.
“La refrigeración líquida directa se vuelve la norma a partir de 50 kW/rack. Con inmersión, logramos mayor densidad y EER, pero hay que re-aprender seguridad y mantenimiento de fluidos”, advierte Carrero.
3) No romper la red: PPAs y microgeneración
- PPAs renovables (solar/eólica) para compensación real en Europa;
- Microredes con pilas de combustible o baterías para picos y resiliencia;
- Curvas de carga planas y orquestación de trabajos para evitar picos coincidentes.
“El kWh verde requiere contratos a largo plazo. Y donde hay restricción, vemos microredes con baterías para picos. También orquestación: no arranques 300 nodos simultáneamente”, comenta Carrero.
Diseño de rack de 80 kW (plantilla operativa)
Potencia y distribución
- Busways duales, 415 V/50–60 Hz, PDUs A/B;
- Cordones HD y bloqueo físico;
- Gestión térmica de PDUs (las PDUs también se calientan).
Red y topologías
- NVLink/NVSwitch según bill-of-materials del fabricante;
- InfiniBand NDR/HDR o Ethernet 100/200/400 GbE con leaf-spine;
- Timing: PTP/SyncE si hay latencia crítica.
Almacenamiento
- Scratch NVMe local (PCIe 4/5) por nodo;
- Burst buffers NVMe sobre red para etapas de shuffle;
- Capa QLC para datasets “warm” y nearline HDD donde la latencia lo permita.
Refrigeración
- D2C: placas, manifold, quick-disconnects, detección de fugas;
- Inmersión: tanques, fluidos con ficha técnica, EHS y formación.
Seguridad y cumplimiento
- Zonas lógicas/físicas separadas, cámaras, accesos, WAF/DCIM/BMS integrados;
- Registro por rack/servidor de intervenciones y lecturas (para auditoría).
¿Y la red eléctrica? Coordinación con el CPD y la utilidad
- Plan de capacidad a 24-36 meses;
- Factores de carga estables (sin picos espasmódicos);
- Flexibilidad: bloques de 5-10 MW desplegables por fases;
- Ubicación: campus con capacidad eléctrica contratada (o ampliable) y agua o dry-cooling disponibles.
“El cuello de botella ya no es la sala blanca: es el transformador y la línea. Hay que ir donde hay capacidad o donde se puede crear”, concluye Carrero.
Coste, plazos y por qué “hazlo tú mismo” suele fallar
- CapEx: un build-to-suit para IA puede superar cientos de millones.
- Permisos: años para alta tensión.
- Riesgo tecnológico: al abrir, el hardware habrá cambiado (densidades, TDP, interconexión).
“Time-to-GPU importa más que el CapEx teórico. Con bare-metal en colocation llegas en meses y te mueves con el mercado. Si construyes desde cero, llegas tarde”, concluye Carrero.
Operar sin sustos: SRE para IA y “FinOps eléctrico”
SRE/Operación
- SLO por trabajo (latencia, throughput, coste);
- Autoscaling y colas conscientes de potencia;
- Mantenimiento de líquidos/inmersión (procedimientos, repuestos, sensores).
FinOps
- Coste €/kWh × kWh/época → €/modelo/€/token;
- Métrica de PUE/TUE y EER por pod;
- Rightsizing de HBM/DRAM, batching, cuantización, sparsity: menos memoria → menos kW → menos €.
“Es imprescindible publicar un coste por modelo y por fine-tune. Si no, es imposible priorizar. Vemos clientes ahorrando 20-30% con cuantización y batching bien implementados”, explica Carrero.
Estrategias híbridas que sí funcionan (2025)
- Bare-metal para entrenamiento e inferencia sensible;
- Nube pública para prototipado y picos;
- Bordes para inferencias cerca del usuario;
- Datasets: landing zone en object storage privado, réplicas selectivas en nube;
- Red: private interconnects y backhauls dedicados (evitar egress sorpresas).
Casos reales (Europa)
Sanidad / Life sciences
- Pipelines de imagen, genómica, descubrimiento de fármacos con datos protegidos (RGPD, HDS, etc.) y clusters dedicados; D2C reduce ruido térmico y estabiliza SLA de entrenamiento.
Finanzas
- Inferencia de fraude y copilotos con baja latencia y peering directo a mercados; pods GPU anclados a centros financieros de la región.
IA-first
- LLMs y multimodales en pods de 8-16 racks a 60-80 kW; mix NDR IB + Ethernet 400G; scratch NVMe local + burst buffers.
Recomendaciones de David Carrero (lista corta)
- Elige ubicación por megavatios, no por postal. Pregunta por capacidad firmada y fechas de entrega eléctrica.
- Líquida desde el diseño. A partir de 50 kW/rack, el aire no escala.
- 415 V y PDUs A/B con medición y arranque escalonado.
- Métricas de FinOps: asigna € a épocas y tokens. Si no se mide, no mejora.
- Contrato energético (PPA) y, si procede, microred. Sin energía, no hay IA.
- Orquestación con conocimiento de potencia: evita picos innecesarios.
- Plan de 24–36 meses: hardware cambia, la red no tanto. Diseña para modularidad.
“La IA responsable no solo trata de gobierno del modelo; se basa en ingeniería eléctrica y térmica responsables. Bare-metal es la herramienta para cumplir ambas”, concluye Carrero.
Conclusión
La cuestión ya no es si puedes alcanzar 80 kW por rack. La verdadera pregunta es si puedes mantener ese rendimiento sin hacer colapsar la red ni afectar tus SLA. Con bare-metal diseñado a medida (415 V, refrigeración líquida/inmersión, PDUs y busways dimensionados), contratos energéticos y operación con métricas, es factible escalar IA en Europa con un criterio: rendimiento predecible, cumplimiento y huella compatibles con tus objetivos ESG.
2025 y los años siguientes pertenecerán a quienes combinen ambición de modelo con disciplina de infraestructura. Porque entrenar a mayor escala es sencillo; entrenar mejor —y sostenerlo— es donde reside la ventaja.
Bare-metal pour l’ère de l’IA : comment héberger des racks de 80 kW sans « casser » le réseau électrique (et sans briser vos SLA)
Madrid. 2025. La IA ha dejado de ser una demostración de laboratorio: se ha convertido en una estrategia empresarial. Pero su lado B revela una demanda eléctrica y térmica sin precedentes. Los ranurados GPU de nueva generación consumen entre 50 y 80 kW de manera sostenida —y algunos pilotes superan los 100 kW— mientras que muchos centros de datos heredados siguen dimensionados para 5 a 10 kW por rack. Incluso los hiperescalares ubicados en polos como Ashburn (N. Virginia), Dublín o Singapur enfrentan moratorias o cupos de conexión. En este contexto, bare-metal deja de ser un “nicho” y se afirma como una pieza clave para entrenar e inferir LLMs a gran escala sin colapsar la infraestructura eléctrica ni comprometer los objetivos ESG.
A continuación, una guía práctica —con observaciones de Carrero— para diseñar, desplegar y operar racks de 80 kW sin romper la red ni degradar tus SLA.
¿Por qué bare-metal para IA?
Acceso directo al hardware. Los overheads de virtualización afectan precisamente donde más duele: latencia entre GPU, acceso a HBM/DRAM, PCIe/NVLink, pinned memory, NUMA. En entrenamiento distribuido (all-reduce) y en inferencia de baja latencia, cada microsegundo cuenta.
Hiperdensidad real. Con bare-metal puedes empaquetar nodos HGX o equivalentes en 60-80 kW por rack con refrigeración líquida directa al chip o inmersión, y PDUs diseñados para 415 V trifásico. La virtualización en estos perfiles suele ser contraindicada.
Cumplimiento y perímetro. La RGPD, los sectores financiero y sanitario o datos sensibles requieren aislamiento físico, trazabilidad y control del plano de datos. Bare-metal asegura el cumplimiento y se integra con nubes públicas para la parte elástica o no sensible.
El reto eléctrico y térmico (y cómo abordarlo)
1) Ingeniería eléctrica “de arriba abajo”
2) Refrigeración: de aire a líquida (y a inmersión)
3) No romper la red: PPAs y microgeneración
Diseño de rack de 80 kW (plantilla operativa)
Potencia y distribución
Red y topologías
Almacenamiento
Refrigeración
Seguridad y cumplimiento
¿Y la red eléctrica? Coordinación con el CPD y la utilidad
Coste, plazos y por qué “hazlo tú mismo” suele fallar
Operar sin sustos: SRE para IA y “FinOps eléctrico”
SRE/Operación
FinOps
Estrategias híbridas que sí funcionan (2025)
Casos reales (Europa)
Sanidad / Life sciences
Finanzas
IA-first
Recomendaciones de David Carrero (lista corta)
Conclusión
La cuestión ya no es si puedes alcanzar 80 kW por rack. La verdadera pregunta es si puedes mantener ese rendimiento sin hacer colapsar la red ni afectar tus SLA. Con bare-metal diseñado a medida (415 V, refrigeración líquida/inmersión, PDUs y busways dimensionados), contratos energéticos y operación con métricas, es factible escalar IA en Europa con un criterio: rendimiento predecible, cumplimiento y huella compatibles con tus objetivos ESG.
2025 y los años siguientes pertenecerán a quienes combinen ambición de modelo con disciplina de infraestructura. Porque entrenar a mayor escala es sencillo; entrenar mejor —y sostenerlo— es donde reside la ventaja.
Info Cloud
le dernier
Snowflake annonce son intention d’acquérir Observe pour offrir une observabilité alimentée par l’IA à l’échelle de l’entreprise
Matthew Prince accuse l’Italie après la amende à Cloudflare : le conflit entre lutte contre la piraterie, DNS et la “souveraineté” d’Internet
MediaTek mise sur le « silicium sur mesure » pour l’IA : l’enjeu des ASICs qui pourrait réorganiser sa feuille de route mobile
Infosys et Cognition emmènent « Devin » à l’entreprise mondiale : l’agent d’IA qui promet d’accélérer la modernisation logicielle
NVIDIA se vante (con cifras) en la era MoE: Signal65 estima que GB200 NVL72 puede ser hasta 15× más rentable por token que AMD MI355X
6 tendances clés qui redéfiniront les expériences numériques en 2026