¿Qué es el LLM como juez? | Glosario GEO

El LLM como juez es una técnica de evaluación en la que un modelo de lenguaje puntúa o compara las salidas de otro modelo (o sus propias salidas anteriores) frente a una rúbrica. Reemplaza la costosa calificación humana en tareas como las preguntas y respuestas abiertas, el resumen y las respuestas de los chatbots.

Por qué importa

Evaluar la salida generativa es la parte más difícil de lanzar funcionalidades de LLM. La revisión humana no escala: calificar 10.000 respuestas por semana es inasequible, y la concordancia entre evaluadores suele ser deficiente. El artículo de 2023 "Juzgar al LLM como juez con MT-Bench y Chatbot Arena" mostró que GPT-4 como juez concuerda con expertos humanos en torno al 85 %, aproximadamente la misma tasa con la que los humanos concuerdan entre sí. Eso es suficiente para reemplazar a los humanos en la mayoría de los ciclos de evaluación, lo que habilita las pruebas continuas a una fracción del costo.

Cómo funciona

1. Definir una rúbrica: Criterios como exactitud, exhaustividad, tono y seguridad. Cada uno con una escala (1 a 5) o aprobado/reprobado binario.

2. Dar el prompt al juez: Proporciona al modelo juez la entrada, la salida que debe evaluar y la rúbrica. Pídele que puntúe y explique.

3. Por pares o por puntos:

Por puntos: Puntuar una sola salida según la rúbrica. Más fácil, pero más propenso a la deriva de escala.
Por pares: Comparar dos salidas y elegir una ganadora. Más fiable, porque el juicio relativo es más estable que la puntuación absoluta.

4. Agregar: Promediar las puntuaciones de muchos ejemplos y hacer un seguimiento a lo largo del tiempo a medida que iteras.

Dónde funciona bien

Pruebas A/B de prompts: "¿La versión 2 produce mejores respuestas que la versión 1?" es una pregunta por pares que los jueces LLM manejan bien.

Supervisión de la calidad de RAG: Comprobar que el contexto recuperado se utiliza realmente y está fundamentado en hechos.

Pruebas de regresión: Ejecutar el juez sobre un conjunto de evaluación fijo tras cada cambio de prompt.

Equipos rojos (red-teaming): Un LLM juez busca infracciones de las políticas a gran escala.

Sesgos conocidos

Sesgo de posición: En las comparaciones por pares, los jueces tienden a favorecer la primera respuesta. Mitígalo intercambiando posiciones y promediando.

Sesgo de verbosidad: Las respuestas más largas reciben puntuaciones más altas incluso cuando no son mejores. Controla la longitud en la rúbrica.

Autopreferencia: Los modelos prefieren ligeramente sus propias salidas. Usa un modelo distinto como juez cuando sea posible.

Mala calibración de la escala: Los jueces comprimen las puntuaciones hacia el centro. La evaluación por pares lo evita.

Sensibilidad al prompt: Pequeños cambios en la redacción de la rúbrica invierten los resultados. Fija el prompt del juez una vez que esté validado.

Buenas prácticas

Usa un modelo más fuerte que el que se está juzgando cuando sea posible.

Valida frente a etiquetas humanas en un pequeño conjunto inicial antes de confiar en las puntuaciones del juez a gran escala.

Muestra la rúbrica al juez de forma explícita: no des por supuesto que sabe qué significa "bueno".

Pide primero el razonamiento y luego la puntuación (cadena de pensamiento): los jueces puntúan de forma más fiable cuando se les obliga a explicarse.

Prefiere la evaluación por pares para decisiones de alto riesgo y la evaluación por puntos para la supervisión económica.

Sources: