AMD presenta GAIA, un proyecto de código abierto que ejecuta LLM locales en las NPU de IA Ryzen

Masterbitz

hace 1 hora5 Min. de lectura

AMD ha puesto en marcha un nuevo proyecto de código abierto llamado, GAIA (pronunciada /-a-.-/), una aplicación impresionante que aprovecha el poder de Ryzen AI Neural Processing Unit (NPU) para ejecutar modelos privados y locales de lenguaje grande (LLM). En este blog, nos sumergiremos en las características y beneficios de GAIA, al tiempo que presentamos cómo puedes aprovechar el proyecto de código abierto de GAIA para adoptar en tus propias aplicaciones.

Introducción a GAIA

GAIA es una aplicación de IA generativa diseñada para ejecutar LLMs locales y privadas en PC con Windows y está optimizada para hardware AMD Ryzen AI (AMD Ryzen AI Serie Processores de la Serie 300). Esta integración permite un procesamiento más rápido y eficiente, es decir, una potencia más baja, manteniendo sus datos locales y seguros. En los PC de Ryzen AI, GAIA interactúa con la NPU y la iGPU para ejecutar modelos sin problemas mediante el uso de la fuente abierta Limonada (LLM-Aid) SDK de ONNX TurnkeyML para la inferencia de LLM. GAIA es compatible con una variedad de LLMs locales optimizados para ejecutar en PCs de Ryzen AI. Modelos populares como Llama y Phi derivados se pueden adaptar para diferentes casos de uso, como preguntas y respuestas, resumen y tareas de razonamiento complejas.

Empezar con GAIA

Para empezar con GAIA en menos de 10 minutos. Siga las instrucciones para descargar e instalar GAIA en su PC de Ryzen AI. Una vez instalado, puede lanzar GAIA y comenzar a explorar sus diversos agentes y capacidades. Hay 2 versiones de GAIA:

1) Instalador de GAIA - esto se ejecutará en cualquier PC con Windows; sin embargo, el rendimiento puede ser más lento.
2) Instalador híbrido GAIA - este paquete está optimizado para ejecutar en Ryzen AI PCs y utiliza la NPU y la iGPU para un mejor rendimiento.

El oleoducto agente RAG

Una de las características más destacadas de GAIA es su agente Retrieval-Augmented Generation (RAG) tubería. Este gasoducto combina un LLM con una base de conocimiento, lo que permite al agente recuperar información relevante, la razón, planificar y utilizar herramientas externas dentro de un entorno de chat interactivo. Esto resulta en respuestas más precisas y contextualmente conscientes.

Los agentes GAIA actuales permiten las siguientes capacidades:

Finalización simple: No hay agente para la interacción del modelo directo para pruebas y evaluación.
Chaty: un chatbot LLM con la historia que entabla conversación con el usuario.
Clip: una RAG Agentic para el agente de búsqueda de YouTube y preguntas y respuestas.
Joker: un simple generador de chistes usando RAG para llevar humor al usuario.

Otros agentes están actualmente en desarrollo, y se alienta a los desarrolladores a crear y contribuir con su propio agente a GAIA.

Cómo funciona GAIA?

El lado izquierdo de la Figura 2: Resumen de GAIA Diagrama ilustra la funcionalidad de Lemonade SDK de TurnkeyML. Lemonade SDK proporciona herramientas para tareas específicas de LLM, tales como impulsos, medición de precisión y servicio en múltiples tiempos de ejecución (por ejemplo, Abrazar la cara, ONNX Runtime GenAI API) y hardware (CPU, iGPU y NPU).

Lemonade expone un servicio web de LLM que se comunica con la aplicación GAIA (a la derecha) a través de una API REST compatible con OpenAI. GAIA consta de tres componentes clave:

1) LLM Connector - Puente la API web del servicio NPU con el gasoducto RAG basado en LlamaIndex.
2) LlamaIndex RAG Pipeline - Incluye un motor de consulta y memoria vectorial, que procesa y almacena información externa relevante.
3) Agente Web Server - Se conecta a la interfaz de la interfaz de usuario a través de WebSocket, permitiendo la interacción del usuario.

En el lado derecho de la figura, GAIA actúa como un agente impulsado por IA que recupera y procesa datos. vectoriza el contenido externo (por ejemplo, GitHub, YouTube, archivos de texto) y lo almacena en un índice vectorial local. Cuando un usuario presenta una consulta, se produce el siguiente proceso:

1) La consulta se envía a GAIA, donde se transforma en un vector de incrustación.
2) La consulta vectorizada se utiliza para recuperar el contexto relevante de los datos indexados.
3) El contexto recuperado se pasa al servicio web, donde se incrusta en el símbolo de la LLM.
4) El LLM genera una respuesta, que se transmite de nuevo a través del servicio web GAIA y se muestra en la interfaz de usuario.

Este proceso asegura que las consultas de los usuarios se mejoren con el contexto pertinente antes de ser procesada por el LLM, mejorando la precisión y relevancia de la respuesta. La respuesta final se entrega al usuario en tiempo real a través de la interfaz de usuario.

Beneficios de LLMs corriendo localmente

Correr LLMs localmente en la NPU ofrece varios beneficios:

Mayor privacidad, ya que no hay datos que deje de su máquina. Esto elimina la necesidad de enviar información sensible a la nube, mejorando en gran medida la privacidad y la seguridad de los datos, al tiempo que sigue ofreciendo capacidades de IA de alto rendimiento.
Reducido la latencia, ya que no hay necesidad de comunicarse con la nube.
Rendimiento optimizado con la NPU, lo que conduce a tiempos de respuesta más rápidos y menor consumo de energía.

Comparación de NPU e iGPU

La gestión de GAIA en la NPU da lugar a un mejor desempeño para tareas específicas de IA, ya que está diseñado para la inferencia de las cargas de trabajo. Comenzando con Ryzen AI Software Release 1.3, hay soporte híbrido para implementar LLMs cuantificados que utilizan tanto la NPU como la iGPU. Mediante el uso de ambos componentes, cada uno se puede aplicar a las tareas y operaciones para las que están optimizados.

Aplicaciones e industrias

Esta configuración podría beneficiar a industrias que requieren alto rendimiento y privacidad, como la salud, las finanzas y las aplicaciones empresariales donde la privacidad de los datos es crítica. También se puede aplicar en campos como la creación de contenidos y la automatización del servicio al cliente, donde los modelos generativos de IA se están volviendo esenciales. Por último, ayuda a las industrias sin Wi-Fi a enviar datos a la nube y recibir respuestas, ya que todo el procesamiento se hace localmente.

Conclusión

En conclusión, GAIA, una aplicación de código abierto AMD, utiliza el poder de la Ryzen AI NPU para ofrecer LLM eficientes, privadas y de alto rendimiento. Mediante la gestión local de los LLMs, GAIA garantiza una mayor privacidad, una reducción de la latencia y un rendimiento optimizado, por lo que es ideal para industrias que priorizan la seguridad de los datos y los tiempos de respuesta rápida.

AMD presenta GAIA, un proyecto de código abierto que ejecuta LLM locales en las NPU de IA Ryzen

Introducción a GAIA

Empezar con GAIA

Para empezar con GAIA en menos de 10 minutos. Siga las instrucciones para descargar e instalar GAIA en su PC de Ryzen AI. Una vez instalado, puede lanzar GAIA y comenzar a explorar sus diversos agentes y capacidades. Hay 2 versiones de GAIA:

1) Instalador de GAIA - esto se ejecutará en cualquier PC con Windows; sin embargo, el rendimiento puede ser más lento.

2) Instalador híbrido GAIA - este paquete está optimizado para ejecutar en Ryzen AI PCs y utiliza la NPU y la iGPU para un mejor rendimiento.

El oleoducto agente RAG

Los agentes GAIA actuales permiten las siguientes capacidades:

Finalización simple: No hay agente para la interacción del modelo directo para pruebas y evaluación.

Chaty: un chatbot LLM con la historia que entabla conversación con el usuario.

Clip: una RAG Agentic para el agente de búsqueda de YouTube y preguntas y respuestas.

Joker: un simple generador de chistes usando RAG para llevar humor al usuario.

Otros agentes están actualmente en desarrollo, y se alienta a los desarrolladores a crear y contribuir con su propio agente a GAIA.

Cómo funciona GAIA?

Lemonade expone un servicio web de LLM que se comunica con la aplicación GAIA (a la derecha) a través de una API REST compatible con OpenAI. GAIA consta de tres componentes clave:

1) LLM Connector - Puente la API web del servicio NPU con el gasoducto RAG basado en LlamaIndex.

2) LlamaIndex RAG Pipeline - Incluye un motor de consulta y memoria vectorial, que procesa y almacena información externa relevante.

3) Agente Web Server - Se conecta a la interfaz de la interfaz de usuario a través de WebSocket, permitiendo la interacción del usuario.

1) La consulta se envía a GAIA, donde se transforma en un vector de incrustación.

2) La consulta vectorizada se utiliza para recuperar el contexto relevante de los datos indexados.

3) El contexto recuperado se pasa al servicio web, donde se incrusta en el símbolo de la LLM.

4) El LLM genera una respuesta, que se transmite de nuevo a través del servicio web GAIA y se muestra en la interfaz de usuario.

Este proceso asegura que las consultas de los usuarios se mejoren con el contexto pertinente antes de ser procesada por el LLM, mejorando la precisión y relevancia de la respuesta. La respuesta final se entrega al usuario en tiempo real a través de la interfaz de usuario.

Beneficios de LLMs corriendo localmente

Correr LLMs localmente en la NPU ofrece varios beneficios:

Mayor privacidad, ya que no hay datos que deje de su máquina. Esto elimina la necesidad de enviar información sensible a la nube, mejorando en gran medida la privacidad y la seguridad de los datos, al tiempo que sigue ofreciendo capacidades de IA de alto rendimiento.

Reducido la latencia, ya que no hay necesidad de comunicarse con la nube.

Rendimiento optimizado con la NPU, lo que conduce a tiempos de respuesta más rápidos y menor consumo de energía.

Comparación de NPU e iGPU

Aplicaciones e industrias

Conclusión

Listo para probar GAIA usted mismo? Nuestro vídeo ofrece una breve visión general y una breve demostración de instalación de GAIA.

Echa un vistazo y contribuir al repo de GAIA en github.com/amd/gaia. Para comentarios o preguntas, por favor contacte con nosotros en GAIA.amd.com.

Fuente: Blog de desarrolladores de AMD

Entradas recientes

Comments

Siguenos