xAI transforme Colossus 1 en une entreprise : pourquoi Anthropic loue 220 000 GPU

Info Cloud

X (Twitter) Facebook Pinterest LinkedIn Email

La alianza entre Anthropic y SpaceX para aprovechar toda la capacidad del centro de datos Colossus 1 puede resultar, a primera vista, una decisión difícil de comprender. Elon Musk ha criticado públicamente a varios de sus rivales en el ámbito de la inteligencia artificial, y xAI compite directamente con Anthropic en la carrera por desarrollar los modelos más avanzados. Sin embargo, desde una perspectiva industrial y de infraestructura, esta jugada adquiere una lógica mucho más clara: aunque Colossus 1 puede ser menos eficiente como clúster de entrenamiento para xAI, resulta sumamente valioso como plataforma de inferencia para los modelos Claude.

Anthropic ha confirmado un acuerdo con SpaceX para utilizar toda la capacidad de cómputo del centro de datos Colossus 1. Según la compañía, esto proporcionará más de 300 MW de potencia adicional y más de 220,000 GPU NVIDIA disponibles en un plazo de un mes. La meta inmediata es incrementar los límites de uso de Claude Code, eliminar restricciones en horas punta para planes Pro y Max, y ampliar los límites de API para los modelos Claude Opus.

Un clúster enorme, pero no necesariamente óptimo para el entrenamiento

Colossus 1 es uno de los mayores clústeres de inteligencia artificial conocidos. xAI lo define como una infraestructura con más de 220,000 GPU NVIDIA, que incluye modelos H100, H200 y GB200. La variedad de generaciones en este hardware es significativa. Para ciertos usos, esto puede suponer una ventaja, ya que ofrece una capacidad colosal. Sin embargo, para el entrenamiento distribuido de modelos de frontera, una arquitectura heterogénea puede presentar dificultades.

El entrenamiento a gran escala requiere una sincronización precisa y constante. Miles o incluso decenas de miles de GPU deben avanzar al unísono en cada paso del proceso. Cuando algunas avanzan más rápido que otras o existen retrasos en la red, las GPU más potentes deben esperar a las más lentas, fenómeno conocido como el efecto de cuellos de botella o «straggler effect». Esto reduce significativamente la eficiencia del sistema. En días recientes, se ha señalado un índice de utilización de solo el 11 % de MFU, Model FLOPs Utilization, atribuido a xAI por The Information y recogido por Data Center Dynamics. Este porcentaje está muy por debajo de las cifras que normalmente superan el 40 % en otros grandes laboratorios.

Es importante abordar este dato con cautela, ya que no proviene de una auditoría técnica pública exhaustiva. Sin embargo, refleja un problema conocido en la gestión de clusters heterogéneos: entrenar modelos enormes no consiste solo en adquirir GPU, sino también en coordinar software, red, topología, planificación, refrigeración, energía y mantenimiento con una precisión máxima. Aunque un clúster de 220,000 GPU pueda parecer impresionante en su tamaño bruto, su aprovechamiento puede verse limitado si está compuesto por hardware con distintas características y rendimientos.

La propia comunicación oficial de xAI señala que Colossus 1 está diseñado para entrenamiento, ajuste fino, inferencia y computación de alto rendimiento. Sin embargo, Elon Musk, en su perfil de X (antes Twitter), comentó, según Reuters, que SpaceX ha trasladado sus esfuerzos de entrenamiento de IA a Colossus 2. Este aspecto es clave: si xAI ya ha desplazado su entrenamiento principal a otro clúster, Colossus 1 deja de ser el centro de su desarrolloo técnico, transformándose en un activo rentable para otros usos.

Inferencia: distinta necesidad de sincronización frente a entrenamiento

La diferencia fundamental entre entrenamiento e inferencia ayuda a entender el alcance de este acuerdo. El entrenamiento de modelos de frontera requiere que una cantidad inmensa de GPU actúe en sincronía durante semanas o meses, con un alto nivel de coordinación. En contraste, la inferencia se puede dividir en peticiones independientes, distribuyéndolas entre grupos de GPU de manera más flexible. Aunque no elimina todos los desafíos, la inferencia tolera mejor ciertos niveles de heterogeneidad en la infraestructura.

Para Anthropic, que experimenta un crecimiento en el uso de Claude Code y sus modelos Opus, lo urgentemente necesario no es solo entrenar nuevos modelos en Colossus 1. La prioridad es responder a una mayor cantidad de usuarios, sesiones de programación, solicitudes de API y carga empresarial. En este escenario, contar con 220.000 GPU adicionales se traduce en capacidad práctica y pronta, aunque el clúster no sea ideal para un entrenamiento distribuido extremadamente eficiente.

Esto también explica por qué Anthropic puede aprovechar un activo que, para xAI, quizás no era perfecto en su función original. Un clúster heterogéneo con GPUs H100, H200 y GB200 puede tener penalizaciones cuando se requiere sincronización global, pero resulta mucho más rentable si se dedica a inferencia, servicios de Claude, ejecución de agentes, colas de usuarios y capacidad API.

Además, Anthropic accede a toda esa capacidad como un cliente único, lo que reduce problemas asociados a la multitenencia, como latencias imprevisibles, interferencias entre cargas y gestión fragmentada. Desde la perspectiva de SpaceX y xAI, también simplifica la operación: un solo contrato, una carga de trabajo clara y un activo ya construido en uso intensivo.

La estrategia financiera de Musk

Este acuerdo tiene también un componente financiero importante. Reuters señala que la operación le proporciona a SpaceX un cliente de primer nivel en un momento clave, cuando la compañía prepara su salida a bolsa y busca convencer a los inversores de sus ambiciones en el campo de la IA. La infraestructura de cómputo, que antes solo representaba un gasto enorme para entrenar modelos como Grok, empieza a ser vista también como una línea de negocio con potencial de ingresos recurrentes.

Este cambio de perspectiva es significativo. Un laboratorio de IA que invierte miles de millones anualmente en entrenamiento tiene una narrativa financiera compleja. En cambio, una empresa que pueda alquilar capacidad de centros de datos a terceros y obtener ingresos por ello se asemeja más a una plataforma de infraestructura. Algunos análisis ya hablan de un modelo «neo-cloud»: propietarios de grandes clústeres que alquilan capacidad a laboratorios, startups y empresas que no pueden construir sus propias infraestructuras a esa escala.

Las cifras precisas de rentabilidad aún no se han hecho públicas. Algunas estimaciones de mercado sugieren ingresos potenciales de varios miles de millones de dólares anuales si se considera el coste por hora de uso de GPU en precios elevados. Sin embargo, dichas estimaciones dependen de supuestos que no han sido confirmados, como tarifas reales, tasas de utilización, duración de los contratos, costos energéticos, depreciación, mantenimiento, red y personal operativo. Es recomendable interpretarlas como escenarios posibles, no como datos cerrados.

Lo que sí resulta evidente es la transformación del activo en sí. Colossus 1, que podrá haber sido problemático para el entrenamiento de frontera por su baja utilización efectiva, ahora, al ser arrendado para inferencia y servicios de producto, genera flujo de caja para SpaceX y xAI. La granja de GPU que antes parecía un dolor operativo, ahora se convierte en un activo estratégico con valor comercial.

Anthropic: adquiere tiempo y capacidad

Para Anthropic, la alianza resuelve una necesidad igual de urgente: ampliar su capacidad para sostener y escalar Claude, especialmente Claude Code. En su anuncio, la compañía afirmó que este acuerdo se suma a otros compromisos de infraestructura: hasta 5 GW con Amazon, un acuerdo de 5 GW con Google, el acuerdo de Broadcom que iniciará en 2027, 30.000 millones de dólares en capacidad en Azure con Microsoft y NVIDIA, y una inversión de 50.000 millones de dólares en infraestructura estadounidense a través de Fluidstack.

La conclusión es clara: Anthropic busca diversificar sus fuentes de capacidad, no depender de un único proveedor ni de un solo tipo de hardware. La compañía entrena y opera Claude en AWS Trainium, Google TPU y GPU NVIDIA. La diversificación se ha convertido en una estrategia clave para los laboratorios de IA más avanzados. La demanda de sus productos crece, los límites de uso impactan la experiencia de usuario y la disponibilidad de recursos es un factor decisivo para ampliar ventas.

Además, el acuerdo con SpaceX envía un mensaje comercial: mayor disponibilidad para Claude Code y más capacidad para clientes de pago. No se trata solo de una mejora en infraestructura futura, sino de una prestación tangible para quienes enfrentaban restricciones en su uso cotidiano.

Orbital AI: la iniciativa más futurista del pacto

Otra novedad importante es que Anthropic ha expresado interés en colaborar con SpaceX para desarrollar capacidades de computación orbital en gigavatios. La idea de establecer centros de datos en el espacio puede parecer futurista, pero aborda un problema muy concreto: la limitación física en la expansión de la IA debido a factores energéticos, de tierras, refrigeración y permisos terrestres.

Reuters indica que Anthropic ve interés en esa opción y que SpaceX busca convertir el cómputo orbital en una de sus principales narrativas de futuro. En su comunicado, xAI menciona que SpaceX está en condiciones de lanzar y mantener constelaciones de satélites con experiencia suficiente en la gestión del espacio y en lanzamientos para que la computación espacial pase de ser un tema de investigación a un proyecto de ingeniería concreto.

A corto plazo, sin embargo, el negocio principal sigue radicando en Memphis; el aporte inmediato de Colossus 1 a Anthropic permite a SpaceX y xAI mostrar que sus centros de datos son rentables más allá del uso interno. La parte orbital refuerza el compromiso a largo plazo, pero la infraestructura terrestre continúa siendo la base del acuerdo.

Esta operación deja en evidencia una gran lección sobre la nueva economía de la inteligencia artificial: la ventaja competitiva ya no depende exclusivamente de tener el mejor modelo, sino también del acceso a energía, GPU, red, refrigeración, software, capacidad de inferencia y una base de clientes dispuestos a pagar. En ese escenario, un clúster imperfecto puede ser una carga para ciertos usos y una fortaleza para otros.

Musk no ha entregado Colossus 1 a un rival. Más bien, ha transformado un clúster menos eficiente en entrenamiento en un activo de capacidad para inferencia, justo donde Anthropic necesitaba apoyo. Mientras xAI mantiene su concentración en Colossus 2 para desarrollar nuevos modelos, SpaceX monetiza Colossus 1 con un cliente de primer nivel. Es una rotación de activos, no una derrota.

Preguntas frecuentes

¿Qué ha acordado Anthropic con SpaceX?
Anthropic usará toda la capacidad de Colossus 1, con más de 300 MW y más de 220.000 GPU NVIDIA en el plazo de un mes, para ampliar la capacidad de Claude.

¿Por qué xAI cede capacidad a un competidor?
Porque, según Elon Musk, SpaceX ya trasladó sus esfuerzos de entrenamiento a Colossus 2. Colossus 1 puede ser más rentable como capacidad de inferencia alquilada que como el clúster principal de entrenamiento.

¿Por qué un clúster heterogéneo es problemático para entrenar IA?
El entrenamiento distribuido requiere que muchas GPU avancen en sincronía. Si unas son más rápidas o hay retrasos en la red, las GPU más potentes terminan esperando, lo que reduce la eficiencia del proceso.

¿Por qué Anthropic sí puede aprovechar Colossus 1?
Porque la inferencia sostiene mejor la heterogeneidad que el entrenamiento. Muchas solicitudes pueden distribuirse entre diferentes grupos de GPU, haciendo más útil un clúster mixto para atender usuarios y APIs.

Why did xAI hand over a 220,000-GPU cluster to Anthropic?

The technical backdrop to xAI’s decision to hand Colossus 1 over to Anthropic in its entirety is more interesting than it appears. xAI deployed more than 220,000 NVIDIA GPUs at its Colossus 1 data center in Memphis. Of… https://t.co/dE9O3RZr4B

— Jukan (@jukan05) May 9, 2026