Instruction Tuning
O instruction tuning e o processo de pos-treinamento de fine-tuning de um LLM base sobre milhares de pares (instrução, resposta desejada) para que ele aprenda a seguir instruções em linguagem natural em vez de simplesmente continuar texto. E a etapa que transforma um modelo de linguagem bruto - bom em prever a proxima palavra - em um assistente que entende "resuma isto", "traduza para o coreano" ou "escreva uma consulta SQL".
O instruction tuning e o processo de pos-treinamento de fine-tuning de um LLM base sobre milhares de pares (instrução, resposta desejada) para que ele aprenda a seguir instruções em linguagem natural em vez de simplesmente continuar texto. E a etapa que transforma um modelo de linguagem bruto - bom em prever a proxima palavra - em um assistente que entende "resuma isto", "traduza para o coreano" ou "escreva uma consulta SQL".
Por Que Importa
Um modelo base treinado apenas em previsão do proximo token e surpreendentemente dificil de usar. Pergunte a um modelo base bruto GPT-3 "Qual e a capital da França?" e ele pode responder com "Qual e a capital da Italia? Qual e a capital da Espanha?" - continuando o padrão de perguntas semelhantes em vez de responder. O instruction tuning mudou isso. O FLAN do Google (2021), o InstructGPT da OpenAI (2022) e o Claude da Anthropic usaram instruction tuning para criar modelos que de fato respondem. Todo LLM moderno orientado a chat - GPT-4, Claude, Gemini, Llama Instruct, Mistral Instruct - passou por instruction tuning. Entender essa etapa explica por que dois modelos com capacidades de base semelhantes podem parecer dramaticamente diferentes ao uso.
Como Funciona
1. Coletar dados de instrução: Humanos escrevem (ou selecionam) milhares de pares de instrução-resposta em tarefas diversas - resumo, perguntas e respostas, programação, tradução, matematica, escrita criativa, raciocinio.
2. Formatar de modo consistente: Cada exemplo segue uma estrutura como:
### Instruction:
Resuma o artigo a seguir em 3 bullets.
### Input:
[texto do artigo]
### Response:
- ponto 1
- ponto 2
- ponto 3
3. Supervised fine-tuning (SFT): Treine o modelo base com a perda padrão de previsão do proximo token sobre esses pares formatados. O modelo aprende que, depois de ver "### Instruction: ... ### Response:", deve gerar a resposta desejada.
4. Mistura multitarefa opcional: Conjuntos de dados como FLAN, T0 e Dolly combinam centenas de tipos de tarefa para que o modelo generalize a instruções nunca vistas.
5. Avaliar em instruções reservadas: Meça se o modelo segue novas instruções que nunca viu durante o tuning.
Instruction Tuning vs Fine-Tuning vs RLHF
| Aspecto | Fine-Tuning | Instruction Tuning | RLHF |
|---|---|---|---|
| Dados | Exemplos especificos da tarefa | Pares diversos (instrução, resposta) | Comparações de preferencia humana |
| Perda | Previsão do proximo token | Previsão do proximo token | Modelo de recompensa + PPO |
| Objetivo | Especializar em uma tarefa | Seguir instruções de forma geral | Alinhar com preferencias humanas |
| Exemplo | Um modelo ajustado so em contratos juridicos | FLAN, Alpaca, Dolly | ChatGPT, Claude |
| Dificuldade | Facil | Media | Dificil |
Na pratica, os modelos de chat modernos passam pelos tres: pre-treinamento base → instruction tuning (SFT) → RLHF (ou DPO/IA constitucional). O instruction tuning e a camada intermediaria - o ponto em que um modelo se torna utilizavel, mas ainda não esta alinhado com preferencias como utilidade, segurança e honestidade.
Modelos Famosos Ajustados por Instrução
FLAN-T5 (Google, 2022): Um dos primeiros modelos open-source ajustados por instrução. Mostrou que um modelo de 3B com instruction tuning podia superar um modelo de 175B sem ele.
Alpaca (Stanford, 2023): Ajustou o Llama 7B em 52 mil exemplos de instrução gerados pelo GPT-3.5. Demonstrou que o instruction tuning e barato e eficaz mesmo para modelos pequenos.
Dolly (Databricks, 2023): Ajustado em 15 mil instruções escritas por humanos. Provou que dados de alta qualidade superam quantidade.
Llama Instruct / Mistral Instruct: Versões ajustadas por instrução de pesos abertos lançadas junto com seus modelos base.
Open-Instruct e Tulu (AI2): Modelos ajustados por instrução com foco em pesquisa, enfatizando transparencia.
Compensações
Qualidade dos dados > quantidade: 15 mil exemplos escritos com cuidado podem superar 500 mil gerados automaticamente. Alpaca vs Dolly mostrou isso.
Cobertura estreita vs ampla: Cobrir mais tipos de tarefa melhora a generalização, mas pode prejudicar o desempenho em qualquer tarefa isolada.
Sensibilidade ao formato: Modelos ajustados por instrução esperam um formato de prompt especifico. Usar o errado degrada o desempenho de modo perceptivel.
Risco de alucinação: Se os dados de instrução contem respostas sem fundamento, o modelo aprende a fabricar com confiança.
Custo: De algumas centenas a alguns milhares de dolares de tempo de GPU para modelos pequenos; muito mais em escala de ponta.
Erros Comuns
Confundir com RLHF: São etapas diferentes. Um modelo pode passar por instruction tuning sem RLHF (e muitos modelos abertos passam), mas vai perder o alinhamento de preferencias.
Usar um modelo base bruto como modelo de chat: Modelos base não seguem instruções de forma confiavel. Sempre use a variante ajustada por instrução ou de chat para tarefas de assistente.
Misturar formatos de prompt entre modelos: Cada modelo ajustado por instrução tem seu proprio formato esperado. O do Llama não e o do Mistral nem o da OpenAI.
Treinar no seu proprio dominio e perder a capacidade geral: Um fine-tuning estreito por cima de um modelo ajustado por instrução pode apagar a capacidade de seguir instruções. Use LoRA e avalie de forma ampla.
Esquecer a avaliação: O julgamento humano ou o LLM-as-a-judge sobre prompts reservados e a unica forma de verificar se o instruction tuning de fato funcionou.
Fontes: