El procesador de servidor NVIDIA CG100 "Grace" se somete a pruebas de rendimiento académicas
El Barcelona Supercomputing Center (BSC) y la Universidad Estatal de Nueva York (campus de Stony Brook y Buffalo) han enfrentado el relativamente nuevo superchip CG100 "Grace" de NVIDIA a varios productos rivales en una "amplia variedad de pruebas de HPC e IA". El material de marketing de Team Green se ha centrado principalmente en el paquete general GH200 "Grace Hopper", por lo que resulta interesante ver cómo los institutos técnicos se concentran en el "primer verdadero" procesador de servidor de la compañía (basado en ARM), en lugar del siempre popular aspecto de la GPU. El artículo de Next Platform resume la composición interna del chip: "La CPU Grace (de NVIDIA) tiene un número de núcleos relativamente alto y una huella térmica relativamente baja, y dispone de bancos de memoria DDR5 (LPDDR5) de bajo consumo -del tipo de las que se utilizan en los portátiles, pero con corrección de errores para ser de clase servidor- con capacidad suficiente para ser útil en sistemas HPC, que hoy en día suelen tener 256 GB o 512 GB por nodo y a veces menos".
Los resultados de las pruebas se dieron a conocer la semana pasada en la conferencia HPC Asia 2024 (celebrada en Nagoya, Japón). El Centro de Supercomputación de Barcelona (BSC) y la Universidad Estatal de Nueva York también han publicado sus conclusiones en la Biblioteca Digital de la ACM (enlaces 1 y 2). El sistema MareNostrum 5 del BSC contiene una parte de clúster experimental formada por los superchips Grace-Grace y Grace-Hopper de NVIDIA. Hemos oído hablar mucho de este último (en notas de prensa), pero el primero es un concepto novedoso, tal y como se describe en The Next Platform: Si juntamos dos CPU Grace en un superchip Grace-Grace, un paquete estrechamente acoplado que utiliza interconexiones chip a chip NVLink que proporcionan coherencia de memoria a través de los bancos de memoria LPDDR5 y que sólo consume unos 500 vatios, la cosa se pone muy interesante para los aficionados a la HPC". El resultado es un total de 144 núcleos Arm Neoverse "Demeter" V2 con arquitectura Armv9 y 1 TB de memoria física con 1,1 TB/s de ancho de banda teórico máximo. Por alguna razón, probablemente relacionada con el rendimiento de la memoria LPDDR5, sólo 960 GB de esa capacidad de memoria y sólo 1 TB/s de ese ancho de banda de memoria están realmente disponibles".
El antiguo superordenador MareNostrum 4 de BSC se basa en "nodos compuestos por un par de procesadores Skylake-X Xeon SP-8160 Platinum de 24 núcleos funcionando a 2,1 GHz". El sistema basado en Team Blue, de casi siete años de antigüedad, fue superado por el MareNostrum 5, reforzado con NVIDIA: los peores resultados de rendimiento de este último seguían siendo un 67% más rápidos, mientras que los mejores indicaban una ventaja de rendimiento de 4,49 veces. El Instituto Upstate de Nueva York enfrentó una amplia gama de soluciones rivales a su propia configuración NVIDIA en configuraciones "Grace-Grace" (par CPU-CPU) y "Grace-Hopper" (par CPU-GPU). La competencia incluía: Intel Sapphire Rapids y Ice Lake, AMD Milan, además de los procesadores Amazon Graviton 3 y Fujitsu A64FX basados en ARM. Tom's Hardware comprobó los datos comparativos de SUNY: "El Grace Superchip venció con facilidad al Graviton 3, al A64FX, a una configuración Ice Lake de 80 núcleos e incluso a una configuración Milan de 128 núcleos en todas las pruebas comparativas. Sin embargo, el servidor Sapphire Rapids con dos Xeon Max 9468 de 48 núcleos detuvo la racha ganadora de Grace".
Continúan: "Contra Sapphire Rapids en modo HBM, Grace sólo ganó en tres de las ocho pruebas, aunque fue capaz de superarles en cinco pruebas en modo DDR5. Sorprendentemente, Nvidia obtiene resultados dispares si se tiene en cuenta que Grace tiene un 50% más de núcleos y utiliza el nodo más avanzado de 4 nm de TSMC en lugar del antiguo proceso Intel 7 (antes 10 nm) de Intel. Sin embargo, no es un resultado totalmente inesperado: Sapphire Rapids también se impuso a los chips EPYC Genoa de AMD por un puesto en una instancia Azure con MI300X, lo que indica que, a pesar de las deficiencias de Sapphire Rapid, todavía tiene mucho potencial para HPC... Por otro lado, NVIDIA podría obtener una victoria aplastante en eficiencia. El Grace Superchip tiene una potencia nominal de 500 vatios, mientras que el Xeon Max 9468 tiene una potencia nominal de 350 vatios, lo que significa que los dos tendrían un TDP de 700 vatios. El documento no detalla el consumo de energía de ninguno de los dos chips, pero si suponemos que cada uno de ellos funciona a su TDP, la comparación resulta muy favorable para NVIDIA".
The Next Platform cree que el procesador para servidores CG100 de Team Green se ve realmente reforzado por su vecino de a bordo: "cualquier CPU emparejada con la misma GPU Hopper probablemente lo haría igual de bien. En la unidad Grace-Grace con sólo CPU, el rendimiento de Gromacs es casi tan potente como el de un par de CPU Xeon de la serie Max 'Sapphire Rapids'. Cabe destacar que la memoria HBM de este chip no ayuda mucho a Gromacs. Hmmmm. En fin, esto da que pensar sobre la CPU Grace y las cargas de trabajo HPC".
Fuentes: Next Platform, Tom's Hardware, ACM Digital Library #1, ACM Digital Library #2
Comments