GEO

Destilacao de Modelos

A destilacao de modelos e uma tecnica de treinamento em que um pequeno modelo "aluno" aprende a imitar um modelo "professor" muito maior - treinando com as saidas do professor (ou suas distribuicoes de probabilidade internas) em vez de rotulos brutos. O resultado e um modelo com a maior parte da capacidade do professor por uma fracao do tamanho, da latencia e do custo.

A destilacao de modelos e uma tecnica de treinamento em que um pequeno modelo "aluno" aprende a imitar um modelo "professor" muito maior - treinando com as saidas do professor (ou suas distribuicoes de probabilidade internas) em vez de rotulos brutos. O resultado e um modelo com a maior parte da capacidade do professor por uma fracao do tamanho, da latencia e do custo.

Por que importa

O trade-off entre fronteira e barato costumava ser brutal: pagar 10x por um modelo 5% mais inteligente, ou se conformar. A destilacao reduz essa diferenca. GPT-4o-mini, Claude Haiku, Gemini Flash, Llama 3 8B Instruct - todo tier "pequeno, rapido e barato" de um laboratorio importante e, na pratica, um descendente destilado de um modelo principal. A destilacao tambem e a forma preferida de especializar: um modelo de 7B destilado do GPT-4 sobre transcricoes de suporte ao cliente pode superar o original nessa tarefa especifica custando 1/100 para servir. Para quem constroi produtos, a destilacao reformula a pergunta "qual modelo eu uso" de "o maior que posso pagar" para "qual e o menor modelo que ainda da conta do meu trabalho".

Como funciona

1. Escolha um professor: Geralmente um modelo grande e capaz (GPT-4, Claude Opus, Llama 70B).

2. Gere dados de treinamento: Uma de duas formas:

  • Destilacao por saida: Rode o professor sobre um grande conjunto de entradas e salve suas respostas. Treine o aluno nesses pares (entrada, resposta-do-professor).
  • Destilacao por logit: Capture a distribuicao de probabilidade completa do professor sobre o vocabulario em cada token (os "alvos suaves") e treine o aluno para corresponder a ela.

3. Treine o aluno: Fine-tuning supervisionado padrao, mas usando as saidas do professor como rotulos. A perda do aluno e a divergencia dele em relacao a saida do professor, e nao a uma resposta-ouro rotulada por humanos.

4. Foco opcional em tarefa: Destile com dados de um dominio especifico (codigo, chat, matematica, suporte ao cliente) para um modelo pequeno especializado.

5. Avalie: Compare aluno x professor em benchmarks reservados. Mire em 80 a 95% da qualidade do professor com menos de 10% do custo.

Destilacao por saida x por logit

AspectoDestilacao por saida (resposta)Destilacao por logit (alvo suave)
DadosApenas as saidas de texto do professorProbabilidades completas de token do professor
Acesso necessarioApenas APINecessita dos pesos brutos do modelo
QualidadeBoaMelhor (mais sinal por token)
CustoBaratoMais caro (custo de captura)
Caso de usoDestilar de APIs fechadasDestilar de modelos abertos ou proprios

A destilacao por saida e o que a maioria das equipes faz, porque elas nao tem acesso em nivel de pesos ao GPT-4 ou ao Claude. A destilacao por logit e o padrao academico, mas exige modelos abertos.

Modelos destilados famosos

DistilBERT (Hugging Face, 2019): O original. 60% do tamanho do BERT, 95% do seu desempenho, 60% mais rapido.

Alpaca / Vicuna (Stanford / LMSYS, 2023): Llama destilado das saidas do GPT-3.5. Tornou baratos os pequenos modelos que seguem instrucoes.

GPT-4o-mini, Claude Haiku, Gemini Flash: Segundo relatos, destilados de seus respectivos modelos principais, embora os detalhes nao sejam publicos.

Llama 3.2 1B / 3B: Os modelos pequenos da Meta destilados de variantes maiores do Llama para uso no dispositivo.

DeepSeek-R1-Distill (2025): Versoes destiladas abertas do raciocinio do DeepSeek-R1 em bases menores de Llama e Qwen.

TinyLlama, Phi-3: Modelos pequenos treinados com tecnicas no estilo de destilacao para render acima do que seu numero de parametros sugeriria.

Quando usar destilacao

Produto orientado a custo: Voce precisa da maior parte da qualidade, mas nao pode pagar GPT-4 ou Claude Opus em cada requisicao.

UX sensivel a latencia: Assistentes de chat em que as respostas precisam estar abaixo de um segundo.

Especializacao: Uma tarefa restrita (classificacao de intencao, extracao de JSON, autocompletar codigo) em que um modelo pequeno ajustado supera o modelo principal generalista.

No dispositivo ou em ambiente isolado (air-gapped): Onde rodar um modelo de 70B e impossivel.

Processamento em lote de alto volume: Classificacao de documentos a milhoes por dia - os modelos principais sao caros demais.

Quando nao usar

Voce nao tem dados suficientes do professor: E preciso, no minimo, milhares de pares de alta qualidade (entrada, saida-do-professor).

Tarefas criativas abertas: Modelos destilados costumam perder nuance e criatividade.

Raciocinio de fronteira: Matematica, programacao e raciocinio complexo ainda se beneficiam de rodar o proprio modelo de fronteira.

Dominios em rapida mudanca: Um modelo destilado e um retrato instantaneo. Se o dominio muda toda semana, a destilacao fica defasada.

Trade-offs

Teto de qualidade: O aluno nao pode superar o professor. A destilacao transfere, nao cria.

Fragilidade em entradas desconhecidas: Modelos pequenos generalizam menos. Entradas fora da distribuicao se degradam rapido.

Heranca de vies: Os vieses do professor (e os erros, e as alucinacoes) ficam incorporados ao aluno.

Custo de API antecipado: Destilar de uma API fechada exige pagar por milhares de inferencias do professor durante a geracao de dados.

Risco de compliance: Alguns termos de servico de APIs fechadas proibem usar as saidas para treinar modelos concorrentes. Leia os termos.

Erros comuns

Destilar sem avaliacao: Sem benchmarks reservados, voce nao consegue saber se o aluno corresponde ao professor.

Aluno minusculo, professor complexo: Um aluno de 1B nao consegue capturar todo o comportamento de um professor de 175B. Ajuste a escala a ambicao.

Pular a qualidade dos dados: Saidas ruins do professor (alucinadas, fora da tarefa) se transformam em comportamento ruim incorporado ao aluno.

Sem especializacao: Destilar um modelo generalista a partir de um modelo generalista costuma produzir um modelo generalista pior. Destile para uma tarefa.

Pontos cegos de compliance: Treinar discretamente sobre as saidas da API de concorrentes e uma bomba-relogio juridica. Confirme os termos de servico.

Fontes: