¿Qué es RLHF? | Glosario GEO

El aprendizaje por refuerzo a partir de retroalimentación humana (RLHF, Reinforcement Learning from Human Feedback) es una técnica de entrenamiento que ajusta el comportamiento del LLM con datos de preferencia recopilados de humanos. Un LLM preentrenado en bruto es fluido pero a menudo poco útil o inseguro; RLHF es el paso de alineación estándar que convierte ese modelo en bruto en "un interlocutor que la gente realmente prefiere".

Por qué es importante

RLHF fue la razón central por la que ChatGPT captó la atención del público en 2022. El artículo InstructGPT de OpenAI mostró que un modelo RLHF de 1.300 millones de parámetros era preferido por los humanos sobre el modelo base de 175.000 millones de parámetros. La lección: "alinear con la retroalimentación humana" es una palanca más fuerte que "hacer el modelo más grande". Casi todos los LLM comerciales de hoy (Claude, GPT, Gemini, Llama) se lanzan con alguna forma de RLHF o un derivado.

Tres etapas

1. Preentrenamiento: Aprender la predicción del siguiente token sobre un enorme corpus de texto. El modelo es conocedor pero malo siguiendo instrucciones.

2. Ajuste fino supervisado (SFT): Ajustar con pares de "buena pregunta → buena respuesta" escritos por humanos. El modelo aprende el formato de chat y el seguimiento de instrucciones.

3. RLHF propiamente dicho:

Entrenar un modelo de recompensa: Mostrar a los humanos dos respuestas candidatas y preguntar cuál es mejor. Entrenar un modelo de recompensa con estos pares de preferencia.
Optimización por RL: Usar un algoritmo de RL como PPO (Proximal Policy Optimization) para ajustar el LLM de modo que maximice las puntuaciones del modelo de recompensa.

El resultado sigue siendo un modelo de lenguaje, pero uno cuyas salidas están ajustadas hacia las preferencias humanas.

Qué resuelve RLHF

Utilidad: Convierte respuestas "técnicamente predictivas pero inútiles" en otras "realmente útiles".

Seguridad: Entrena al modelo para rechazar contenido violento, discriminatorio o ilegal.

Honestidad: Fomenta el "no lo sé" frente a la invención, aunque no resuelve por completo la alucinación.

Tono y formato: Enseña un estilo amable, respuestas estructuradas y registros culturales como los honoríficos del coreano.

Límites y críticas

Reward hacking: El modelo explota las debilidades del modelo de recompensa para producir respuestas que se ven bien para los evaluadores pero que en realidad no son mejores.

Sesgo de la retroalimentación: Los sesgos culturales y personales de los etiquetadores quedan integrados en el modelo de recompensa.

Sobrealineación: Se vuelve demasiado cauteloso y rechaza preguntas legítimas.

Costo: Recopilar retroalimentación humana de alta calidad es lento y costoso y no escala con facilidad.

Tensión con la alucinación: Algunas investigaciones sostienen que RLHF puede amplificar las alucinaciones al recompensar respuestas que suenan seguras.

Derivados y alternativas

DPO (Direct Preference Optimization): Omite el modelo de recompensa y optimiza el LLM directamente a partir de los datos de preferencia. Está reemplazando rápidamente a RLHF a partir de 2023.

Constitutional AI (CAI): El enfoque de Anthropic: en lugar de retroalimentación humana, usa una "constitución" explícita contra la cual el modelo se autocritica y se revisa a sí mismo.

RLAIF (RL from AI Feedback): Usar otro LLM para proporcionar los juicios de preferencia en lugar de humanos. Más barato pero con mayor riesgo de sesgo.

Implicaciones para GEO

Los LLM modernos, gracias a RLHF, están alineados hacia un tono neutral y útil. El contenido de blog que tiende a ser citado por la búsqueda con IA se inclina hacia una escritura calmada e informativa en lugar de un texto sensacionalista o exagerado. Dado que RLHF también recompensa las citas y la incertidumbre apropiada, el contenido basado en hechos con fuentes explícitas tiene más probabilidades de ser elegido como candidato a cita.

Sources: