GEO

Destilación de modelos

La destilación de modelos es una técnica de entrenamiento en la que un modelo "estudiante" pequeño aprende a imitar a un modelo "maestro" mucho más grande, entrenándose con las salidas del maestro (o con sus distribuciones de probabilidad internas) en lugar de con etiquetas en bruto. El resultado es un modelo con la mayor parte de la capacidad del maestro a una fracción del tamaño, la latencia y el coste.

La destilación de modelos es una técnica de entrenamiento en la que un modelo "estudiante" pequeño aprende a imitar a un modelo "maestro" mucho más grande, entrenándose con las salidas del maestro (o con sus distribuciones de probabilidad internas) en lugar de con etiquetas en bruto. El resultado es un modelo con la mayor parte de la capacidad del maestro a una fracción del tamaño, la latencia y el coste.

Por qué es importante

La disyuntiva entre lo de vanguardia y lo barato solía ser brutal: pagar 10 veces más por un modelo un 5% más inteligente, o conformarse. La destilación reduce esa brecha. GPT-4o-mini, Claude Haiku, Gemini Flash, Llama 3 8B Instruct: cada nivel "pequeño, rápido y barato" de un laboratorio importante es, en la práctica, un descendiente destilado de un modelo insignia. La destilación es también la forma preferida de especializar: un modelo de 7.000 millones destilado de GPT-4 con transcripciones de atención al cliente puede superar al original en esa única tarea y a la vez costar 1/100 de servir. Para quienes construyen sistemas, la destilación replantea la pregunta "qué modelo uso" de "el más grande que pueda permitirme" a "cuál es el modelo más pequeño que aún hace mi trabajo".

Cómo funciona

1. Elige un maestro: normalmente un modelo grande y capaz (GPT-4, Claude Opus, Llama 70B).

2. Genera datos de entrenamiento: ya sea:

  • Destilación de salidas: ejecuta el maestro sobre un gran conjunto de entradas y guarda sus respuestas. Entrena al estudiante con esos pares (entrada, respuesta del maestro).
  • Destilación de logits: captura la distribución de probabilidad completa del maestro sobre el vocabulario en cada token (los "objetivos suaves") y entrena al estudiante para que la iguale.

3. Entrena al estudiante: ajuste fino supervisado estándar, pero usando las salidas del maestro como etiquetas. La pérdida del estudiante es su divergencia respecto a la salida del maestro, no respecto a una respuesta de referencia etiquetada por humanos.

4. Enfoque en una tarea opcional: destila con datos de un dominio específico (código, chat, matemáticas, atención al cliente) para obtener un modelo pequeño especializado.

5. Evalúa: compara al estudiante con el maestro en pruebas reservadas. Apunta a un 80-95% de la calidad del maestro con menos del 10% del coste.

Destilación de salidas frente a destilación de logits

AspectoDestilación de salidas (respuestas)Destilación de logits (objetivos suaves)
DatosSolo las salidas de texto del maestroLas probabilidades completas de tokens del maestro
Acceso requeridoSolo APISe necesitan los pesos del modelo en bruto
CalidadBuenaMejor (más señal por token)
CosteEconómicoMás caro (coste de captura)
Caso de usoDestilar desde API cerradasDestilar desde modelos abiertos o propios

La destilación de salidas es lo que hacen la mayoría de los equipos porque no tienen acceso a nivel de pesos a GPT-4 ni a Claude. La destilación de logits es el estándar académico, pero requiere modelos abiertos.

Modelos destilados famosos

DistilBERT (Hugging Face, 2019): el original. El 60% del tamaño de BERT, el 95% de su rendimiento, un 60% más rápido.

Alpaca / Vicuna (Stanford / LMSYS, 2023): Llama destilado de las salidas de GPT-3.5. Hizo económicos los modelos pequeños que siguen instrucciones.

GPT-4o-mini, Claude Haiku, Gemini Flash: según se informa, destilados de sus respectivos modelos insignia, aunque los detalles no son públicos.

Llama 3.2 1B / 3B: los modelos pequeños de Meta destilados de variantes más grandes de Llama para uso en dispositivos.

DeepSeek-R1-Distill (2025): versiones destiladas abiertas del razonamiento de DeepSeek-R1 en bases más pequeñas de Llama y Qwen.

TinyLlama, Phi-3: modelos pequeños entrenados con técnicas de tipo destilación para rendir por encima de su peso de parámetros.

Cuándo usar la destilación

Producto guiado por el coste: necesitas la mayor parte de la calidad pero no puedes permitirte GPT-4 ni Claude Opus en cada solicitud.

Experiencia sensible a la latencia: asistentes de chat donde las respuestas deben ser de menos de un segundo.

Especialización: una tarea acotada (clasificación de intención, extracción de JSON, autocompletado de código) en la que un modelo pequeño con ajuste fino supera al modelo insignia general.

En el dispositivo o aislado de la red: donde ejecutar un modelo de 70.000 millones es imposible.

Procesamiento por lotes de gran volumen: clasificación de documentos a millones por día, donde los modelos insignia son demasiado caros.

Cuándo no usarla

No tienes suficientes datos del maestro: necesitas como mínimo miles de pares (entrada, salida del maestro) de alta calidad.

Tareas creativas abiertas: los modelos destilados a menudo pierden matiz y creatividad.

Razonamiento de vanguardia: las matemáticas, la programación y el razonamiento complejo siguen beneficiándose de ejecutar el modelo de vanguardia real.

Dominios que cambian con rapidez: un modelo destilado es una instantánea. Si el dominio cambia cada semana, la destilación se queda rezagada.

Compensaciones

Techo de calidad: el estudiante no puede superar al maestro. La destilación transfiere, no crea.

Fragilidad ante entradas desconocidas: los modelos pequeños generalizan menos. Las entradas fuera de la distribución se degradan rápido.

Herencia de sesgos: los sesgos del maestro (y sus errores, y sus alucinaciones) quedan incorporados al estudiante.

Coste inicial de API: destilar desde una API cerrada requiere pagar por miles de inferencias del maestro durante la generación de datos.

Riesgo de cumplimiento: algunos términos de servicio de API cerradas prohíben usar las salidas para entrenar modelos competidores. Lee los términos.

Errores comunes

Destilar sin evaluación: sin pruebas reservadas, no puedes saber si el estudiante iguala al maestro.

Estudiante diminuto, maestro complejo: un estudiante de 1.000 millones no puede captar todo el comportamiento de un maestro de 175.000 millones. Ajusta la escala a la ambición.

Saltarse la calidad de los datos: las salidas malas del maestro (alucinadas, fuera de tarea) se convierten en un comportamiento malo incorporado al estudiante.

Sin especialización: destilar un modelo general a partir de un modelo general suele producir un modelo general peor. Destila para una tarea.

Puntos ciegos de cumplimiento: entrenar en silencio con las salidas de API de la competencia es una bomba de relojería legal. Confirma los términos de servicio.

Sources: