Las redes Ethernet de NVIDIA aceleran el mayor superordenador de IA del mundo, creado por xAI
NVIDIA acaba de comunicar que el cluster de supercomputación Colossus de xAI, compuesto por 100.000 GPU Hopper de NVIDIA y ubicado en Memphis (Tennessee), ha alcanzado esta escala masiva utilizando la plataforma de red Ethernet NVIDIA Spectrum-X, diseñada para proporcionar un rendimiento superior a las fábricas de IA a hiperescala y multiinquilino que utilizan Ethernet basada en estándares, para su red de acceso remoto directo a memoria (RDMA).
Colossus, el mayor superordenador de IA del mundo, se está utilizando para entrenar la familia Grok de xAI de grandes modelos de lenguaje, con chatbots ofrecidos como una función para los suscriptores de X Premium. xAI está en proceso de duplicar el tamaño de Colossus hasta alcanzar un total combinado de 200.000 GPU Hopper de NVIDIA.
Las instalaciones de apoyo y el superordenador de última generación fueron construidos por xAI y NVIDIA en sólo 122 días, en lugar del plazo habitual para sistemas de este tamaño que puede llevar de muchos meses a años. Desde que se instaló el primer bastidor hasta que comenzó el entrenamiento pasaron 19 días.
Durante el entrenamiento del amplísimo modelo Grok, Colossus consigue un rendimiento de red sin precedentes. En los tres niveles de la estructura de red, el sistema no ha experimentado ninguna degradación de la latencia de las aplicaciones ni pérdida de paquetes por colisiones de flujo. Ha mantenido un rendimiento de datos del 95% gracias al control de congestión Spectrum-X.
Este nivel de rendimiento no puede lograrse a escala con Ethernet estándar, que crea miles de colisiones de flujo y ofrece sólo un 60% de rendimiento de datos.
«La IA se está convirtiendo en una misión crítica y requiere un mayor rendimiento, seguridad, escalabilidad y rentabilidad», afirma Gilad Shainer, vicepresidente senior de redes de NVIDIA. «La plataforma de redes NVIDIA Spectrum-X Ethernet está diseñada para proporcionar a innovadores como xAI un procesamiento, análisis y ejecución más rápidos de las cargas de trabajo de IA y, a su vez, acelera el desarrollo, la implantación y el tiempo de comercialización de las soluciones de IA.»
«Colossus es el sistema de entrenamiento más potente del mundo», afirma Elon Musk en X. »Buen trabajo del equipo de xAI, NVIDIA y nuestros numerosos socios/proveedores.»
«xAI ha construido el superordenador más grande y potente del mundo», afirma un portavoz de xAI. «Las GPU Hopper de NVIDIA y Spectrum-X nos permiten superar los límites del entrenamiento de modelos de IA a escala masiva, creando una fábrica de IA superacelerada y optimizada basada en el estándar Ethernet.»
En el corazón de la plataforma Spectrum-X se encuentra el switch Ethernet Spectrum SN5600, que admite velocidades de puerto de hasta 800 Gb/s y está basado en el ASIC de switch Spectrum-4. xAI optó por emparejar el switch Spectrum-X SN5600 con las SuperNIC NVIDIA BlueField-3 para obtener un rendimiento sin precedentes.
La red Ethernet Spectrum-X para IA aporta funciones avanzadas que proporcionan un ancho de banda altamente eficaz y escalable con baja latencia y latencia de cola corta, antes exclusivas de InfiniBand. Estas funciones incluyen enrutamiento adaptativo con la tecnología NVIDIA Direct Data Placement, control de la congestión, así como visibilidad mejorada del tejido de IA y aislamiento del rendimiento, todos ellos requisitos clave para las nubes de IA generativas multiinquilino y los entornos de grandes empresas.
Comments