GEO

Evaluación de RAG

La evaluación de RAG es la metodología para medir cuantitativamente qué tan bien un pipeline RAG recupera buen contexto y genera respuestas precisas. Dado que los LLM generan libremente, no puedes juzgar la calidad con simples comparaciones de entrada y salida como se prueba el software corriente: los frameworks de evaluación dedicados se han convertido en el kit de herramientas estándar para el desarrollo de RAG en 2026.

La evaluación de RAG es la metodología para medir cuantitativamente qué tan bien un pipeline RAG recupera buen contexto y genera respuestas precisas. Dado que los LLM generan libremente, no puedes juzgar la calidad con simples comparaciones de entrada y salida como se prueba el software corriente: los frameworks de evaluación dedicados se han convertido en el kit de herramientas estándar para el desarrollo de RAG en 2026.

Por qué es importante

Los sistemas RAG constan de múltiples etapas (reescritura de consultas → búsqueda vectorial → reranking → inyección de contexto → generación del LLM → citación) y cualquier etapa puede fallar de forma independiente. Un solo paso roto hunde la calidad de la respuesta, pero fijarse solo en "¿fue buena la respuesta final?" no te dice qué etapa falló. Una investigación de Stanford HAI estima que alrededor del 35 % de los sistemas RAG de producción sufren alucinaciones, recuperaciones fallidas o citas rotas, algo imposible de corregir sin una evaluación sistemática.

Métricas principales

Calidad de la recuperación

  • Precisión de contexto: Proporción de los fragmentos recuperados que son realmente relevantes
  • Recall de contexto: Proporción de los fragmentos relevantes de referencia que fueron recuperados
  • MRR (Mean Reciprocal Rank): Rango recíproco promedio del primer fragmento relevante
  • NDCG (Normalized DCG): Métrica estándar de recuperación de información que combina relevancia y rango

Calidad de la generación

  • Fidelidad: ¿La respuesta deriva realmente del contexto proporcionado? Lo contrario de la alucinación.
  • Relevancia de la respuesta: ¿Qué tan bien coincide la respuesta con la pregunta?
  • Corrección de la respuesta: ¿Es la respuesta realmente correcta (frente a la referencia)?
  • Completitud de la respuesta: ¿Abordó todos los aspectos de la pregunta?

Calidad de las citas

  • Precisión de las citas: ¿Las fuentes citadas respaldan realmente la afirmación?
  • Recall de las citas: Proporción de las afirmaciones de la respuesta que llevan citas de fuentes.

Principales frameworks de evaluación

Ragas: Biblioteca de código abierto para la evaluación de RAG. Mide automáticamente precisión de contexto, fidelidad, relevancia de la respuesta y más, usando un enfoque de "LLM como juez".

TruLens: Trazado y evaluación integrados para aplicaciones RAG y de LLM, que abarcan desde el desarrollo hasta el monitoreo en producción.

LangSmith: Herramienta de evaluación y observación de LangChain con comparación de experimentos, depuración de trazas y gestión de conjuntos de datos.

ARES: Framework de evaluación de nivel académico que usa datos sintéticos para la evaluación comparativa automática.

Conjuntos de evaluación personalizados: Lo más importante en la práctica. Recopila de 50 a 500 consultas reales de usuarios con respuestas de referencia y úsalas como conjunto de pruebas de regresión.

Límites del LLM como juez

La mayoría de los frameworks modernos se apoyan en "pedirle a otro LLM que puntúe la calidad de la respuesta" (LLM como juez). Es rápido y barato, pero tiene advertencias.

  • Sesgo del juez: Los LLM que actúan como juez favorecen ciertos estilos, longitudes o familias de modelos.
  • Brechas de consistencia: La misma entrada puede no producir la misma puntuación. Mitígalo con temperatura 0 y promediando varias ejecuciones.
  • Veracidad compleja: Los juicios que requieren experiencia de dominio todavía necesitan verificación humana.

Acompaña siempre las decisiones críticas con revisión humana.

Consejos prácticos

Evalúa etapa por etapa: No evalúes todo el pipeline a la vez. Mide la recuperación, el reranking y la generación por separado para localizar los cuellos de botella.

Pruebas de regresión: Vuelve a medir con el mismo conjunto de evaluación cada vez que cambien el código, los prompts o los modelos para detectar regresiones.

Monitoreo en producción: Evalúa continuamente una muestra aleatoria de respuestas reales con un LLM como juez para detectar deriva.

Conéctalo a la retroalimentación del usuario: Correlaciona los pulgares arriba/abajo y los clics de regeneración con las métricas de evaluación.

Sources: