¿Qué es el ajuste por instrucciones? | Glosario GEO

El ajuste por instrucciones es el proceso posterior al entrenamiento de ajuste fino de un LLM de base con miles de pares (instrucción, respuesta deseada) para que aprenda a seguir instrucciones en lenguaje natural en lugar de limitarse a continuar texto. Es el paso que convierte un modelo de lenguaje en bruto, bueno para predecir la siguiente palabra, en un asistente que entiende "resume esto", "tradúcelo al coreano" o "escribe una consulta SQL".

Por qué importa

Un modelo de base entrenado únicamente en la predicción del siguiente token es sorprendentemente difícil de usar. Pregúntale a un modelo de base GPT-3 en bruto "¿cuál es la capital de Francia?" y podría responder con "¿cuál es la capital de Italia? ¿cuál es la capital de España?", continuando el patrón de preguntas similares en lugar de responder. El ajuste por instrucciones cambió esto. FLAN de Google (2021), InstructGPT de OpenAI (2022) y Claude de Anthropic utilizaron el ajuste por instrucciones para crear modelos que realmente responden. Todos los LLM modernos orientados al chat (GPT-4, Claude, Gemini, Llama Instruct, Mistral Instruct) se han ajustado por instrucciones. Comprender este paso explica por qué dos modelos con capacidades de base similares pueden resultar muy distintos de usar.

Cómo funciona

1. Recopilar datos de instrucciones: Personas escriben (o seleccionan) miles de pares de instrucción y respuesta en tareas diversas: resumen, preguntas y respuestas, programación, traducción, matemáticas, escritura creativa y razonamiento.

2. Dar formato de manera coherente: Cada ejemplo sigue una estructura como:

### Instruction:
Summarize the following article in 3 bullets.
### Input:
[article text]
### Response:
- point 1
- point 2
- point 3

3. Ajuste fino supervisado (SFT): Entrenar el modelo de base con la pérdida estándar de predicción del siguiente token sobre estos pares con formato. El modelo aprende que, tras ver "### Instruction: ... ### Response:", debería generar la respuesta deseada.

4. Mezcla multitarea opcional: Conjuntos de datos como FLAN, T0 y Dolly combinan cientos de tipos de tareas para que el modelo generalice a instrucciones no vistas.

5. Evaluar con instrucciones reservadas: Medir si el modelo sigue nuevas instrucciones que nunca vio durante el ajuste.

Ajuste por instrucciones vs. ajuste fino vs. RLHF

Aspecto	Ajuste fino	Ajuste por instrucciones	RLHF
Datos	Ejemplos específicos de la tarea	Pares diversos de (instrucción, respuesta)	Comparaciones de preferencias humanas
Pérdida	Predicción del siguiente token	Predicción del siguiente token	Modelo de recompensa + PPO
Objetivo	Especializarse en una tarea	Seguimiento general de instrucciones	Alinearse con las preferencias humanas
Ejemplo	Un modelo ajustado solo con contratos legales	FLAN, Alpaca, Dolly	ChatGPT, Claude
Dificultad	Fácil	Media	Difícil

En la práctica, los modelos de chat modernos pasan por las tres: preentrenamiento de base → ajuste por instrucciones (SFT) → RLHF (o DPO/IA constitucional). El ajuste por instrucciones es la capa intermedia: el punto en el que un modelo se vuelve usable pero todavía no está alineado con preferencias como la utilidad, la seguridad y la honestidad.

Modelos famosos ajustados por instrucciones

FLAN-T5 (Google, 2022): Uno de los primeros modelos de código abierto ajustados por instrucciones. Demostró que un modelo de 3.000 millones de parámetros con ajuste por instrucciones podía superar a un modelo de 175.000 millones sin él.

Alpaca (Stanford, 2023): Ajuste fino de Llama 7B con 52.000 ejemplos de instrucciones generados por GPT-3.5. Demostró que el ajuste por instrucciones es económico y eficaz incluso para modelos pequeños.

Dolly (Databricks, 2023): Ajuste fino con 15.000 instrucciones escritas por personas. Demostró que los datos de alta calidad superan a la cantidad.

Llama Instruct / Mistral Instruct: Versiones de pesos abiertos ajustadas por instrucciones publicadas junto con sus modelos de base.

Open-Instruct y Tulu (AI2): Modelos ajustados por instrucciones orientados a la investigación que enfatizan la transparencia.

Compromisos

Calidad de los datos > cantidad: 15.000 ejemplos cuidadosamente escritos pueden superar a 500.000 generados automáticamente. Alpaca frente a Dolly lo demostró.

Cobertura estrecha vs. amplia: Cubrir más tipos de tareas mejora la generalización, pero puede perjudicar el rendimiento en cualquier tarea concreta.

Sensibilidad al formato: Los modelos ajustados por instrucciones esperan un formato de prompt específico. Usar el incorrecto degrada el rendimiento de forma notable.

Riesgo de alucinación: Si los datos de instrucciones contienen respuestas sin anclaje, el modelo aprende a fabricar con seguridad.

Costo: Desde unos pocos cientos hasta unos pocos miles de dólares en tiempo de GPU para modelos pequeños; mucho más a escala de vanguardia.

Errores comunes

Confundirlo con el RLHF: Son pasos distintos. Un modelo puede ajustarse por instrucciones sin RLHF (y muchos modelos abiertos lo hacen), pero le faltará la alineación de preferencias.

Usar un modelo de base en bruto como modelo de chat: Los modelos de base no siguen las instrucciones de forma fiable. Usa siempre la variante ajustada por instrucciones o de chat para las tareas de asistente.

Mezclar formatos de prompt entre modelos: Cada modelo ajustado por instrucciones tiene su propio formato esperado. El de Llama no es el de Mistral, que no es el de OpenAI.

Entrenar en tu propio dominio y perder capacidad general: El ajuste fino estrecho sobre un modelo ajustado por instrucciones puede borrar el seguimiento de instrucciones. Usa LoRA y evalúa de forma amplia.

Olvidar la evaluación: El juicio humano o el LLM como juez sobre prompts reservados es la única forma de verificar que el ajuste por instrucciones realmente funcionó.

Sources: