GEO

Instruction Tuning

O instruction tuning e o processo de pos-treinamento de fine-tuning de um LLM base sobre milhares de pares (instrução, resposta desejada) para que ele aprenda a seguir instruções em linguagem natural em vez de simplesmente continuar texto. E a etapa que transforma um modelo de linguagem bruto - bom em prever a proxima palavra - em um assistente que entende "resuma isto", "traduza para o coreano" ou "escreva uma consulta SQL".

O instruction tuning e o processo de pos-treinamento de fine-tuning de um LLM base sobre milhares de pares (instrução, resposta desejada) para que ele aprenda a seguir instruções em linguagem natural em vez de simplesmente continuar texto. E a etapa que transforma um modelo de linguagem bruto - bom em prever a proxima palavra - em um assistente que entende "resuma isto", "traduza para o coreano" ou "escreva uma consulta SQL".

Por Que Importa

Um modelo base treinado apenas em previsão do proximo token e surpreendentemente dificil de usar. Pergunte a um modelo base bruto GPT-3 "Qual e a capital da França?" e ele pode responder com "Qual e a capital da Italia? Qual e a capital da Espanha?" - continuando o padrão de perguntas semelhantes em vez de responder. O instruction tuning mudou isso. O FLAN do Google (2021), o InstructGPT da OpenAI (2022) e o Claude da Anthropic usaram instruction tuning para criar modelos que de fato respondem. Todo LLM moderno orientado a chat - GPT-4, Claude, Gemini, Llama Instruct, Mistral Instruct - passou por instruction tuning. Entender essa etapa explica por que dois modelos com capacidades de base semelhantes podem parecer dramaticamente diferentes ao uso.

Como Funciona

1. Coletar dados de instrução: Humanos escrevem (ou selecionam) milhares de pares de instrução-resposta em tarefas diversas - resumo, perguntas e respostas, programação, tradução, matematica, escrita criativa, raciocinio.

2. Formatar de modo consistente: Cada exemplo segue uma estrutura como:

### Instruction:
Resuma o artigo a seguir em 3 bullets.
### Input:
[texto do artigo]
### Response:
- ponto 1
- ponto 2
- ponto 3

3. Supervised fine-tuning (SFT): Treine o modelo base com a perda padrão de previsão do proximo token sobre esses pares formatados. O modelo aprende que, depois de ver "### Instruction: ... ### Response:", deve gerar a resposta desejada.

4. Mistura multitarefa opcional: Conjuntos de dados como FLAN, T0 e Dolly combinam centenas de tipos de tarefa para que o modelo generalize a instruções nunca vistas.

5. Avaliar em instruções reservadas: Meça se o modelo segue novas instruções que nunca viu durante o tuning.

Instruction Tuning vs Fine-Tuning vs RLHF

AspectoFine-TuningInstruction TuningRLHF
DadosExemplos especificos da tarefaPares diversos (instrução, resposta)Comparações de preferencia humana
PerdaPrevisão do proximo tokenPrevisão do proximo tokenModelo de recompensa + PPO
ObjetivoEspecializar em uma tarefaSeguir instruções de forma geralAlinhar com preferencias humanas
ExemploUm modelo ajustado so em contratos juridicosFLAN, Alpaca, DollyChatGPT, Claude
DificuldadeFacilMediaDificil

Na pratica, os modelos de chat modernos passam pelos tres: pre-treinamento base → instruction tuning (SFT) → RLHF (ou DPO/IA constitucional). O instruction tuning e a camada intermediaria - o ponto em que um modelo se torna utilizavel, mas ainda não esta alinhado com preferencias como utilidade, segurança e honestidade.

Modelos Famosos Ajustados por Instrução

FLAN-T5 (Google, 2022): Um dos primeiros modelos open-source ajustados por instrução. Mostrou que um modelo de 3B com instruction tuning podia superar um modelo de 175B sem ele.

Alpaca (Stanford, 2023): Ajustou o Llama 7B em 52 mil exemplos de instrução gerados pelo GPT-3.5. Demonstrou que o instruction tuning e barato e eficaz mesmo para modelos pequenos.

Dolly (Databricks, 2023): Ajustado em 15 mil instruções escritas por humanos. Provou que dados de alta qualidade superam quantidade.

Llama Instruct / Mistral Instruct: Versões ajustadas por instrução de pesos abertos lançadas junto com seus modelos base.

Open-Instruct e Tulu (AI2): Modelos ajustados por instrução com foco em pesquisa, enfatizando transparencia.

Compensações

Qualidade dos dados > quantidade: 15 mil exemplos escritos com cuidado podem superar 500 mil gerados automaticamente. Alpaca vs Dolly mostrou isso.

Cobertura estreita vs ampla: Cobrir mais tipos de tarefa melhora a generalização, mas pode prejudicar o desempenho em qualquer tarefa isolada.

Sensibilidade ao formato: Modelos ajustados por instrução esperam um formato de prompt especifico. Usar o errado degrada o desempenho de modo perceptivel.

Risco de alucinação: Se os dados de instrução contem respostas sem fundamento, o modelo aprende a fabricar com confiança.

Custo: De algumas centenas a alguns milhares de dolares de tempo de GPU para modelos pequenos; muito mais em escala de ponta.

Erros Comuns

Confundir com RLHF: São etapas diferentes. Um modelo pode passar por instruction tuning sem RLHF (e muitos modelos abertos passam), mas vai perder o alinhamento de preferencias.

Usar um modelo base bruto como modelo de chat: Modelos base não seguem instruções de forma confiavel. Sempre use a variante ajustada por instrução ou de chat para tarefas de assistente.

Misturar formatos de prompt entre modelos: Cada modelo ajustado por instrução tem seu proprio formato esperado. O do Llama não e o do Mistral nem o da OpenAI.

Treinar no seu proprio dominio e perder a capacidade geral: Um fine-tuning estreito por cima de um modelo ajustado por instrução pode apagar a capacidade de seguir instruções. Use LoRA e avalie de forma ampla.

Esquecer a avaliação: O julgamento humano ou o LLM-as-a-judge sobre prompts reservados e a unica forma de verificar se o instruction tuning de fato funcionou.

Fontes: