NVIDIA Blackwell ocupa la primera posición en los últimos resultados de MLPerf Inference
Masterbitz
hace 23 horas
4 Min. de lectura
En las últimas pruebas de MLPerf Inference V5.0, que reflejan algunos de los escenarios de inferencia más exigentes, la plataforma NVIDIA Blackwell ha batido récords y ha supuesto la primera presentación de MLPerf de NVIDIA utilizando el sistema NVIDIA GB200 NVL72, una solución a escala de rack diseñada para el razonamiento de IA. Cumplir la promesa de la IA de vanguardia requiere un nuevo tipo de infraestructura informática, las llamadas fábricas de IA. A diferencia de los centros de datos tradicionales, las fábricas de IA hacen algo más que almacenar y procesar datos: fabrican inteligencia a escala transformando los datos brutos en información en tiempo real. El objetivo de las fábricas de IA es sencillo: ofrecer respuestas precisas a las consultas con rapidez, al menor coste y al mayor número de usuarios posible.
La complejidad de llevar esto a cabo es significativa y tiene lugar entre bastidores. A medida que los modelos de IA crecen hasta alcanzar miles y miles de millones de parámetros para ofrecer respuestas más inteligentes, aumenta el cálculo necesario para generar cada token. Este requisito reduce el número de tokens que puede generar una fábrica de IA y aumenta el coste por token. Mantener un alto rendimiento de inferencia y un bajo coste por testigo requiere una rápida innovación en cada capa de la pila tecnológica, que abarca silicio, sistemas de red y software.
Las últimas actualizaciones de MLPerf Inference, una referencia de rendimiento de inferencia revisada por expertos del sector, incluyen la incorporación de Llama 3.1 405B, uno de los modelos de peso abierto más grandes y difíciles de ejecutar. El nuevo benchmark Llama 2 70B Interactive presenta unos requisitos de latencia mucho más estrictos que el benchmark Llama 2 70B original, reflejando mejor las limitaciones de los despliegues de producción a la hora de ofrecer las mejores experiencias de usuario posibles.
Además de la plataforma Blackwell, la plataforma Hopper de NVIDIA ha demostrado un rendimiento excepcional en todos los aspectos, con un aumento significativo del rendimiento en Llama 2 70B con respecto al año pasado gracias a las optimizaciones de toda la pila.
NVIDIA Blackwell bate nuevos récords
El sistema GB200 NVL72 (que conecta 72 GPU NVIDIA Blackwell para que actúen como una única GPU masiva) ha multiplicado por 30 el rendimiento en la prueba Llama 3.1 405B con respecto al sistema NVIDIA H200 NVL8 presentado en esta ronda. Esta hazaña se ha conseguido triplicando con creces el rendimiento por GPU y multiplicando por 9 el dominio de interconexión NVIDIA NVLink.
Aunque muchas compañías ejecutan pruebas MLPerf en su hardware para medir el rendimiento, sólo NVIDIA y sus partners presentaron y publicaron los resultados de la prueba Llama 3.1 405B.
Las implantaciones de inferencia en producción suelen tener restricciones de latencia en dos métricas clave. La primera es el tiempo hasta el primer token (TTFT), es decir, el tiempo que tarda un usuario en empezar a ver una respuesta a una consulta realizada a un modelo de lenguaje de gran tamaño. El segundo es el tiempo por token de salida (TPOT), es decir, la rapidez con la que se entregan los tokens al usuario.
El nuevo benchmark Llama 2 70B Interactive tiene un TPOT 5 veces más corto y un TTFT 4,4 veces más bajo, lo que modela una experiencia de usuario más receptiva. En esta prueba, la propuesta de NVIDIA utilizando un sistema NVIDIA DGX B200 con ocho GPU Blackwell triplicó el rendimiento en comparación con el uso de ocho GPU NVIDIA H200, lo que estableció un listón muy alto para esta versión más exigente de la prueba Llama 2 70B.
La combinación de la arquitectura Blackwell y su pila de software optimizada proporciona nuevos niveles de rendimiento de inferencia, lo que allana el camino para que las fábricas de IA proporcionen mayor inteligencia, mayor rendimiento y tasas de token más rápidas.
El valor de la fábrica de IA NVIDIA Hopper sigue aumentando
La arquitectura NVIDIA Hopper, introducida en 2022, es la base de muchas de las actuales fábricas de inferencia de IA y sigue impulsando el entrenamiento de modelos. A través de la optimización continua del software, NVIDIA aumenta el rendimiento de las fábricas de IA basadas en Hopper, lo que se traduce en un mayor valor.
En la prueba Llama 2 70B, introducida por primera vez hace un año en MLPerf Inference v4.0, el rendimiento de la GPU H100 ha aumentado 1,5 veces. La GPU H200, basada en la misma arquitectura de GPU Hopper con una memoria de GPU más grande y rápida, amplía ese incremento a 1,6 veces.
Hopper también ha ejecutado todas las pruebas de rendimiento, incluidas las nuevas Llama 3.1 405B, Llama 2 70B Interactive y las pruebas de redes neuronales gráficas. Esta versatilidad significa que Hopper puede ejecutar una amplia gama de cargas de trabajo y mantener el ritmo a medida que los modelos y los escenarios de uso se vuelven más desafiantes.
Se necesita un ecosistema
En esta ronda de MLPerf, 15 partners han presentado resultados estelares en la plataforma NVIDIA, entre los que se incluyen ASUS, Cisco, CoreWeave, Dell Technologies, Fujitsu, Giga Computing, Google Cloud, Hewlett Packard Enterprise, Lambda, Lenovo, Oracle Cloud Infrastructure, Quanta Cloud Technology, Supermicro, Sustainable Metal Cloud y VMware.
La amplitud de las candidaturas presentadas refleja el alcance de la plataforma NVIDIA, que está disponible en todos los proveedores de servicios en la nube y fabricantes de servidores del mundo.
El trabajo de MLCommons para evolucionar continuamente el conjunto de puntos de referencia MLPerf Inference con el fin de seguir el ritmo de los últimos desarrollos de IA y proporcionar al ecosistema datos de rendimiento rigurosos y revisados por pares es vital para ayudar a los responsables de la toma de decisiones de TI a seleccionar la infraestructura de IA óptima.
コメント