AMD ha puesto en marcha un nuevo proyecto de código abierto llamado, GAIA (pronunciada /-a-.-/), una aplicación impresionante que aprovecha el poder de Ryzen AI Neural Processing Unit (NPU) para ejecutar modelos privados y locales de lenguaje grande (LLM). En este blog, nos sumergiremos en las características y beneficios de GAIA, al tiempo que presentamos cómo puedes aprovechar el proyecto de código abierto de GAIA para adoptar en tus propias aplicaciones.
Introducción a GAIA
GAIA es una aplicación de IA generativa diseñada para ejecutar LLMs locales y privadas en PC con Windows y está optimizada para hardware AMD Ryzen AI (AMD Ryzen AI Serie Processores de la Serie 300). Esta integración permite un procesamiento más rápido y eficiente, es decir, una potencia más baja, manteniendo sus datos locales y seguros. En los PC de Ryzen AI, GAIA interactúa con la NPU y la iGPU para ejecutar modelos sin problemas mediante el uso de la fuente abierta Limonada (LLM-Aid) SDK de ONNX TurnkeyML para la inferencia de LLM. GAIA es compatible con una variedad de LLMs locales optimizados para ejecutar en PCs de Ryzen AI. Modelos populares como Llama y Phi derivados se pueden adaptar para diferentes casos de uso, como preguntas y respuestas, resumen y tareas de razonamiento complejas.
Empezar con GAIA
Para empezar con GAIA en menos de 10 minutos. Siga las instrucciones para descargar e instalar GAIA en su PC de Ryzen AI. Una vez instalado, puede lanzar GAIA y comenzar a explorar sus diversos agentes y capacidades. Hay 2 versiones de GAIA:
1) Instalador de GAIA - esto se ejecutará en cualquier PC con Windows; sin embargo, el rendimiento puede ser más lento.
2) Instalador híbrido GAIA - este paquete está optimizado para ejecutar en Ryzen AI PCs y utiliza la NPU y la iGPU para un mejor rendimiento.
El oleoducto agente RAG
Una de las características más destacadas de GAIA es su agente Retrieval-Augmented Generation (RAG) tubería. Este gasoducto combina un LLM con una base de conocimiento, lo que permite al agente recuperar información relevante, la razón, planificar y utilizar herramientas externas dentro de un entorno de chat interactivo. Esto resulta en respuestas más precisas y contextualmente conscientes.
Los agentes GAIA actuales permiten las siguientes capacidades:
Finalización simple: No hay agente para la interacción del modelo directo para pruebas y evaluación.
Chaty: un chatbot LLM con la historia que entabla conversación con el usuario.
Clip: una RAG Agentic para el agente de búsqueda de YouTube y preguntas y respuestas.
Joker: un simple generador de chistes usando RAG para llevar humor al usuario.
Otros agentes están actualmente en desarrollo, y se alienta a los desarrolladores a crear y contribuir con su propio agente a GAIA.
Cómo funciona GAIA?
El lado izquierdo de la Figura 2: Resumen de GAIA Diagrama ilustra la funcionalidad de Lemonade SDK de TurnkeyML. Lemonade SDK proporciona herramientas para tareas específicas de LLM, tales como impulsos, medición de precisión y servicio en múltiples tiempos de ejecución (por ejemplo, Abrazar la cara, ONNX Runtime GenAI API) y hardware (CPU, iGPU y NPU).

Lemonade expone un servicio web de LLM que se comunica con la aplicación GAIA (a la derecha) a través de una API REST compatible con OpenAI. GAIA consta de tres componentes clave:
1) LLM Connector - Puente la API web del servicio NPU con el gasoducto RAG basado en LlamaIndex.
2) LlamaIndex RAG Pipeline - Incluye un motor de consulta y memoria vectorial, que procesa y almacena información externa relevante.
3) Agente Web Server - Se conecta a la interfaz de la interfaz de usuario a través de WebSocket, permitiendo la interacción del usuario.
En el lado derecho de la figura, GAIA actúa como un agente impulsado por IA que recupera y procesa datos. vectoriza el contenido externo (por ejemplo, GitHub, YouTube, archivos de texto) y lo almacena en un índice vectorial local. Cuando un usuario presenta una consulta, se produce el siguiente proceso:
1) La consulta se envía a GAIA, donde se transforma en un vector de incrustación.
2) La consulta vectorizada se utiliza para recuperar el contexto relevante de los datos indexados.
3) El contexto recuperado se pasa al servicio web, donde se incrusta en el símbolo de la LLM.
4) El LLM genera una respuesta, que se transmite de nuevo a través del servicio web GAIA y se muestra en la interfaz de usuario.
Este proceso asegura que las consultas de los usuarios se mejoren con el contexto pertinente antes de ser procesada por el LLM, mejorando la precisión y relevancia de la respuesta. La respuesta final se entrega al usuario en tiempo real a través de la interfaz de usuario.
Beneficios de LLMs corriendo localmente
Correr LLMs localmente en la NPU ofrece varios beneficios:
Mayor privacidad, ya que no hay datos que deje de su máquina. Esto elimina la necesidad de enviar información sensible a la nube, mejorando en gran medida la privacidad y la seguridad de los datos, al tiempo que sigue ofreciendo capacidades de IA de alto rendimiento.
Reducido la latencia, ya que no hay necesidad de comunicarse con la nube.
Rendimiento optimizado con la NPU, lo que conduce a tiempos de respuesta más rápidos y menor consumo de energía.
Comments