Destilacao de Modelos
A destilacao de modelos e uma tecnica de treinamento em que um pequeno modelo "aluno" aprende a imitar um modelo "professor" muito maior - treinando com as saidas do professor (ou suas distribuicoes de probabilidade internas) em vez de rotulos brutos. O resultado e um modelo com a maior parte da capacidade do professor por uma fracao do tamanho, da latencia e do custo.
A destilacao de modelos e uma tecnica de treinamento em que um pequeno modelo "aluno" aprende a imitar um modelo "professor" muito maior - treinando com as saidas do professor (ou suas distribuicoes de probabilidade internas) em vez de rotulos brutos. O resultado e um modelo com a maior parte da capacidade do professor por uma fracao do tamanho, da latencia e do custo.
Por que importa
O trade-off entre fronteira e barato costumava ser brutal: pagar 10x por um modelo 5% mais inteligente, ou se conformar. A destilacao reduz essa diferenca. GPT-4o-mini, Claude Haiku, Gemini Flash, Llama 3 8B Instruct - todo tier "pequeno, rapido e barato" de um laboratorio importante e, na pratica, um descendente destilado de um modelo principal. A destilacao tambem e a forma preferida de especializar: um modelo de 7B destilado do GPT-4 sobre transcricoes de suporte ao cliente pode superar o original nessa tarefa especifica custando 1/100 para servir. Para quem constroi produtos, a destilacao reformula a pergunta "qual modelo eu uso" de "o maior que posso pagar" para "qual e o menor modelo que ainda da conta do meu trabalho".
Como funciona
1. Escolha um professor: Geralmente um modelo grande e capaz (GPT-4, Claude Opus, Llama 70B).
2. Gere dados de treinamento: Uma de duas formas:
- Destilacao por saida: Rode o professor sobre um grande conjunto de entradas e salve suas respostas. Treine o aluno nesses pares (entrada, resposta-do-professor).
- Destilacao por logit: Capture a distribuicao de probabilidade completa do professor sobre o vocabulario em cada token (os "alvos suaves") e treine o aluno para corresponder a ela.
3. Treine o aluno: Fine-tuning supervisionado padrao, mas usando as saidas do professor como rotulos. A perda do aluno e a divergencia dele em relacao a saida do professor, e nao a uma resposta-ouro rotulada por humanos.
4. Foco opcional em tarefa: Destile com dados de um dominio especifico (codigo, chat, matematica, suporte ao cliente) para um modelo pequeno especializado.
5. Avalie: Compare aluno x professor em benchmarks reservados. Mire em 80 a 95% da qualidade do professor com menos de 10% do custo.
Destilacao por saida x por logit
| Aspecto | Destilacao por saida (resposta) | Destilacao por logit (alvo suave) |
|---|---|---|
| Dados | Apenas as saidas de texto do professor | Probabilidades completas de token do professor |
| Acesso necessario | Apenas API | Necessita dos pesos brutos do modelo |
| Qualidade | Boa | Melhor (mais sinal por token) |
| Custo | Barato | Mais caro (custo de captura) |
| Caso de uso | Destilar de APIs fechadas | Destilar de modelos abertos ou proprios |
A destilacao por saida e o que a maioria das equipes faz, porque elas nao tem acesso em nivel de pesos ao GPT-4 ou ao Claude. A destilacao por logit e o padrao academico, mas exige modelos abertos.
Modelos destilados famosos
DistilBERT (Hugging Face, 2019): O original. 60% do tamanho do BERT, 95% do seu desempenho, 60% mais rapido.
Alpaca / Vicuna (Stanford / LMSYS, 2023): Llama destilado das saidas do GPT-3.5. Tornou baratos os pequenos modelos que seguem instrucoes.
GPT-4o-mini, Claude Haiku, Gemini Flash: Segundo relatos, destilados de seus respectivos modelos principais, embora os detalhes nao sejam publicos.
Llama 3.2 1B / 3B: Os modelos pequenos da Meta destilados de variantes maiores do Llama para uso no dispositivo.
DeepSeek-R1-Distill (2025): Versoes destiladas abertas do raciocinio do DeepSeek-R1 em bases menores de Llama e Qwen.
TinyLlama, Phi-3: Modelos pequenos treinados com tecnicas no estilo de destilacao para render acima do que seu numero de parametros sugeriria.
Quando usar destilacao
Produto orientado a custo: Voce precisa da maior parte da qualidade, mas nao pode pagar GPT-4 ou Claude Opus em cada requisicao.
UX sensivel a latencia: Assistentes de chat em que as respostas precisam estar abaixo de um segundo.
Especializacao: Uma tarefa restrita (classificacao de intencao, extracao de JSON, autocompletar codigo) em que um modelo pequeno ajustado supera o modelo principal generalista.
No dispositivo ou em ambiente isolado (air-gapped): Onde rodar um modelo de 70B e impossivel.
Processamento em lote de alto volume: Classificacao de documentos a milhoes por dia - os modelos principais sao caros demais.
Quando nao usar
Voce nao tem dados suficientes do professor: E preciso, no minimo, milhares de pares de alta qualidade (entrada, saida-do-professor).
Tarefas criativas abertas: Modelos destilados costumam perder nuance e criatividade.
Raciocinio de fronteira: Matematica, programacao e raciocinio complexo ainda se beneficiam de rodar o proprio modelo de fronteira.
Dominios em rapida mudanca: Um modelo destilado e um retrato instantaneo. Se o dominio muda toda semana, a destilacao fica defasada.
Trade-offs
Teto de qualidade: O aluno nao pode superar o professor. A destilacao transfere, nao cria.
Fragilidade em entradas desconhecidas: Modelos pequenos generalizam menos. Entradas fora da distribuicao se degradam rapido.
Heranca de vies: Os vieses do professor (e os erros, e as alucinacoes) ficam incorporados ao aluno.
Custo de API antecipado: Destilar de uma API fechada exige pagar por milhares de inferencias do professor durante a geracao de dados.
Risco de compliance: Alguns termos de servico de APIs fechadas proibem usar as saidas para treinar modelos concorrentes. Leia os termos.
Erros comuns
Destilar sem avaliacao: Sem benchmarks reservados, voce nao consegue saber se o aluno corresponde ao professor.
Aluno minusculo, professor complexo: Um aluno de 1B nao consegue capturar todo o comportamento de um professor de 175B. Ajuste a escala a ambicao.
Pular a qualidade dos dados: Saidas ruins do professor (alucinadas, fora da tarefa) se transformam em comportamento ruim incorporado ao aluno.
Sem especializacao: Destilar um modelo generalista a partir de um modelo generalista costuma produzir um modelo generalista pior. Destile para uma tarefa.
Pontos cegos de compliance: Treinar discretamente sobre as saidas da API de concorrentes e uma bomba-relogio juridica. Confirme os termos de servico.
Fontes: