¿Qué es el RAG agéntico? | Glosario GEO

El RAG agéntico es una arquitectura de generación aumentada por recuperación en la que un agente LLM, no una canalización fija, decide qué recuperar, cuándo, cómo y si la respuesta es lo bastante buena. En lugar de un único flujo de consulta → recuperación → respuesta, un agente planifica, lanza múltiples búsquedas, evalúa sus propias respuestas parciales y reintenta hasta que tiene confianza.

Por qué importa

El RAG clásico tiene un techo: una consulta, una recuperación, una respuesta. Eso funciona para búsquedas sencillas, pero falla en preguntas complejas, consultas ambiguas o tareas que requieren leer varios documentos a lo largo de pasos. El RAG agéntico rompe ese techo al dar al modelo autonomía sobre el propio proceso de recuperación. Los benchmarks de 2024-2025 de LangChain, LlamaIndex y Anthropic muestran que el RAG agéntico supera al RAG básico en un 20-40 % en preguntas y respuestas sobre múltiples documentos, verificación de hechos y tareas de investigación. Es la arquitectura detrás de la investigación profunda de Perplexity, la navegación de ChatGPT y la mayoría de los sistemas empresariales de "chatea con tus documentos" que de verdad funcionan.

En qué se diferencia del RAG estándar

RAG estándar:

El usuario hace una pregunta
El sistema vectoriza la pregunta y recupera los top-k
El modelo genera una respuesta a partir del contexto recuperado

Un solo intento. Estático. Sin reintentos.

RAG agéntico:

El usuario hace una pregunta
El agente planifica: "¿Qué necesito saber para responder esto?"
El agente llama a la herramienta de recuperación con una subconsulta específica
El agente lee los resultados y decide qué falta
El agente vuelve a llamar a la recuperación con consultas refinadas (bucle)
El agente decide cuándo tiene suficiente y redacta una respuesta
El agente, opcionalmente, se autocritica y revisa
Se entrega la respuesta final

De varios pasos. Adaptativo. Puede retroceder.

Componentes clave

Planificador: Un LLM (a menudo el mismo que responde) que descompone la pregunta en pasos de recuperación.

Herramientas de recuperación: Búsqueda vectorial, búsqueda por palabra clave, llamadas a API, consultas a bases de datos; el agente puede elegir entre ellas.

Memoria: El agente registra lo que ya ha visto para evitar llamadas redundantes.

Bucle de autocrítica: El agente evalúa si su borrador de respuesta está bien fundamentado y, si no, recupera más.

Condición de salida: Ya sea un umbral de confianza, un presupuesto de pasos o una señal explícita de "tengo suficiente".

Patrones comunes

ReAct (Reasoning + Acting): El agente alterna entre pensar y llamar a herramientas en un único bloc de notas. El patrón agéntico original de Yao et al., 2022.

Plan-and-execute: El agente escribe primero un plan de varios pasos y luego ejecuta cada paso. Mejor para investigación profunda; más lento para preguntas sencillas.

Self-RAG: El modelo decide de forma dinámica si la recuperación es necesaria en absoluto. Si la pregunta es trivial, omite la recuperación por completo.

RAG multiagente: Varios agentes especializados (buscador, lector, crítico, redactor) colaboran. Potente, pero costoso.

Cuándo usarlo

Tareas de investigación complejas: "Resume las tendencias de resultados del cuarto trimestre de 2025 en las FAANG".

Verificación de hechos en múltiples documentos: Cotejar afirmaciones con varias fuentes.

Preguntas ambiguas: Donde la recuperación correcta depende de una desambiguación ("¿Qué Jordan?").

Resultados de alto riesgo: Legal, médico, financiero, donde una sola recuperación podría omitir un contexto crítico.

Chat con agentes integrados: Asistentes que además ejecutan acciones (enviar correo, agendar una reunión) en función de lo que aprenden.

Cuándo no usarlo

Búsquedas sencillas de preguntas frecuentes: Una sola recuperación basta; los bucles agénticos añaden latencia y coste.

Presupuestos de latencia ajustados: Las interfaces de chat con un objetivo de 1 segundo no pueden permitirse bucles de agente de varios pasos.

Volumen sensible al coste: Cada iteración del bucle es otra llamada de inferencia. A escala, el RAG agéntico puede ser entre 5 y 10 veces más caro que el RAG estándar.

Corpus pequeños y bien indexados: Si tus datos son lo bastante pequeños como para que una sola recuperación densa siempre encuentre el fragmento correcto, no añadas complejidad.

Compensaciones

Latencia: Los bucles de varios pasos hacen que las respuestas tarden de 5 a 30 segundos, no menos de 1 segundo.

Coste: Cada paso es una llamada al LLM más una llamada de recuperación. Presupuesta en consecuencia.

Determinismo: Los sistemas agénticos son más difíciles de depurar y reproducir porque el agente puede tomar caminos distintos en ejecuciones distintas.

Evaluación: Medir "si la recuperación es buena" es difícil cuando el plan de recuperación es dinámico. Evalúas las respuestas finales, no las decisiones intermedias.

Errores comunes

Forzar agentes en preguntas sencillas: La sobreingeniería infla el coste sin mejorar la calidad.

Sin presupuesto de pasos: Un agente sin restricciones puede entrar en bucle durante minutos. Limita los pasos a 5-10.

Sin memoria: Sin registrar las recuperaciones anteriores, el agente repite trabajo.

Planificador débil: Si el LLM de planificación es demasiado pequeño o está mal instruido, los planes son malos y los bucles desperdician llamadas.

Omitir la evaluación: Como las trazas del agente son ruidosas, los equipos omiten la evaluación formal y luego no pueden saber si su sistema es realmente mejor que el RAG básico.

Sources:

RAG Agéntico