RAG Agéntico
El RAG agéntico es una arquitectura de generación aumentada por recuperación en la que un agente LLM, no una canalización fija, decide qué recuperar, cuándo, cómo y si la respuesta es lo bastante buena. En lugar de un único flujo de consulta → recuperación → respuesta, un agente planifica, lanza múltiples búsquedas, evalúa sus propias respuestas parciales y reintenta hasta que tiene confianza.
El RAG agéntico es una arquitectura de generación aumentada por recuperación en la que un agente LLM, no una canalización fija, decide qué recuperar, cuándo, cómo y si la respuesta es lo bastante buena. En lugar de un único flujo de consulta → recuperación → respuesta, un agente planifica, lanza múltiples búsquedas, evalúa sus propias respuestas parciales y reintenta hasta que tiene confianza.
Por qué importa
El RAG clásico tiene un techo: una consulta, una recuperación, una respuesta. Eso funciona para búsquedas sencillas, pero falla en preguntas complejas, consultas ambiguas o tareas que requieren leer varios documentos a lo largo de pasos. El RAG agéntico rompe ese techo al dar al modelo autonomía sobre el propio proceso de recuperación. Los benchmarks de 2024-2025 de LangChain, LlamaIndex y Anthropic muestran que el RAG agéntico supera al RAG básico en un 20-40 % en preguntas y respuestas sobre múltiples documentos, verificación de hechos y tareas de investigación. Es la arquitectura detrás de la investigación profunda de Perplexity, la navegación de ChatGPT y la mayoría de los sistemas empresariales de "chatea con tus documentos" que de verdad funcionan.
En qué se diferencia del RAG estándar
RAG estándar:
- El usuario hace una pregunta
- El sistema vectoriza la pregunta y recupera los top-k
- El modelo genera una respuesta a partir del contexto recuperado
Un solo intento. Estático. Sin reintentos.
RAG agéntico:
- El usuario hace una pregunta
- El agente planifica: "¿Qué necesito saber para responder esto?"
- El agente llama a la herramienta de recuperación con una subconsulta específica
- El agente lee los resultados y decide qué falta
- El agente vuelve a llamar a la recuperación con consultas refinadas (bucle)
- El agente decide cuándo tiene suficiente y redacta una respuesta
- El agente, opcionalmente, se autocritica y revisa
- Se entrega la respuesta final
De varios pasos. Adaptativo. Puede retroceder.
Componentes clave
Planificador: Un LLM (a menudo el mismo que responde) que descompone la pregunta en pasos de recuperación.
Herramientas de recuperación: Búsqueda vectorial, búsqueda por palabra clave, llamadas a API, consultas a bases de datos; el agente puede elegir entre ellas.
Memoria: El agente registra lo que ya ha visto para evitar llamadas redundantes.
Bucle de autocrítica: El agente evalúa si su borrador de respuesta está bien fundamentado y, si no, recupera más.
Condición de salida: Ya sea un umbral de confianza, un presupuesto de pasos o una señal explícita de "tengo suficiente".
Patrones comunes
ReAct (Reasoning + Acting): El agente alterna entre pensar y llamar a herramientas en un único bloc de notas. El patrón agéntico original de Yao et al., 2022.
Plan-and-execute: El agente escribe primero un plan de varios pasos y luego ejecuta cada paso. Mejor para investigación profunda; más lento para preguntas sencillas.
Self-RAG: El modelo decide de forma dinámica si la recuperación es necesaria en absoluto. Si la pregunta es trivial, omite la recuperación por completo.
RAG multiagente: Varios agentes especializados (buscador, lector, crítico, redactor) colaboran. Potente, pero costoso.
Cuándo usarlo
Tareas de investigación complejas: "Resume las tendencias de resultados del cuarto trimestre de 2025 en las FAANG".
Verificación de hechos en múltiples documentos: Cotejar afirmaciones con varias fuentes.
Preguntas ambiguas: Donde la recuperación correcta depende de una desambiguación ("¿Qué Jordan?").
Resultados de alto riesgo: Legal, médico, financiero, donde una sola recuperación podría omitir un contexto crítico.
Chat con agentes integrados: Asistentes que además ejecutan acciones (enviar correo, agendar una reunión) en función de lo que aprenden.
Cuándo no usarlo
Búsquedas sencillas de preguntas frecuentes: Una sola recuperación basta; los bucles agénticos añaden latencia y coste.
Presupuestos de latencia ajustados: Las interfaces de chat con un objetivo de 1 segundo no pueden permitirse bucles de agente de varios pasos.
Volumen sensible al coste: Cada iteración del bucle es otra llamada de inferencia. A escala, el RAG agéntico puede ser entre 5 y 10 veces más caro que el RAG estándar.
Corpus pequeños y bien indexados: Si tus datos son lo bastante pequeños como para que una sola recuperación densa siempre encuentre el fragmento correcto, no añadas complejidad.
Compensaciones
Latencia: Los bucles de varios pasos hacen que las respuestas tarden de 5 a 30 segundos, no menos de 1 segundo.
Coste: Cada paso es una llamada al LLM más una llamada de recuperación. Presupuesta en consecuencia.
Determinismo: Los sistemas agénticos son más difíciles de depurar y reproducir porque el agente puede tomar caminos distintos en ejecuciones distintas.
Evaluación: Medir "si la recuperación es buena" es difícil cuando el plan de recuperación es dinámico. Evalúas las respuestas finales, no las decisiones intermedias.
Errores comunes
Forzar agentes en preguntas sencillas: La sobreingeniería infla el coste sin mejorar la calidad.
Sin presupuesto de pasos: Un agente sin restricciones puede entrar en bucle durante minutos. Limita los pasos a 5-10.
Sin memoria: Sin registrar las recuperaciones anteriores, el agente repite trabajo.
Planificador débil: Si el LLM de planificación es demasiado pequeño o está mal instruido, los planes son malos y los bucles desperdician llamadas.
Omitir la evaluación: Como las trazas del agente son ruidosas, los equipos omiten la evaluación formal y luego no pueden saber si su sistema es realmente mejor que el RAG básico.
Sources: