GEO

RLHF

RLHF (Reinforcement Learning from Human Feedback, ou Aprendizado por Reforco com Feedback Humano) e uma tecnica de treinamento que ajusta o comportamento de um LLM com dados de preferencia coletados de humanos. Um LLM pre-treinado bruto e fluente, mas frequentemente pouco util ou inseguro; o RLHF e a etapa padrao de alinhamento que transforma esse modelo bruto em "um parceiro de conversa que as pessoas de fato preferem".

RLHF (Reinforcement Learning from Human Feedback, ou Aprendizado por Reforco com Feedback Humano) e uma tecnica de treinamento que ajusta o comportamento de um LLM com dados de preferencia coletados de humanos. Um LLM pre-treinado bruto e fluente, mas frequentemente pouco util ou inseguro; o RLHF e a etapa padrao de alinhamento que transforma esse modelo bruto em "um parceiro de conversa que as pessoas de fato preferem".

Por que importa

O RLHF foi a razao central pela qual o ChatGPT capturou a atencao do publico em 2022. O artigo do InstructGPT da OpenAI mostrou que um modelo RLHF de 1,3 bilhao de parametros foi preferido por humanos em relacao ao modelo base de 175 bilhoes de parametros. A licao: "alinhar com feedback humano" e uma alavanca mais forte do que "tornar o modelo maior". Quase todo LLM comercial hoje (Claude, GPT, Gemini, Llama) e lancado com alguma forma de RLHF ou de uma variacao dele.

Tres etapas

1. Pre-treinamento: aprender a previsao do proximo token em um enorme corpus de texto. O modelo tem muito conhecimento, mas e ruim em seguir instrucoes.

2. Ajuste fino supervisionado (SFT): ajuste fino em pares "boa pergunta → boa resposta" escritos por humanos. O modelo aprende o formato de chat e a seguir instrucoes.

3. RLHF propriamente dito:

  • Treinar um modelo de recompensa: mostrar a humanos duas respostas candidatas e perguntar qual e melhor. Treinar um modelo de recompensa com esses pares de preferencia.
  • Otimizacao por RL: usar um algoritmo de RL como o PPO (Proximal Policy Optimization) para ajustar o LLM de modo a maximizar as pontuacoes do modelo de recompensa.

O resultado ainda e um modelo de linguagem, mas um cujas saidas sao ajustadas em direcao as preferencias humanas.

O que o RLHF resolve

Utilidade: converte respostas "tecnicamente preditivas, mas inuteis" em respostas "de fato uteis".

Seguranca: treina o modelo a recusar conteudo violento, discriminatorio ou ilegal.

Honestidade: incentiva o "eu nao sei" em vez da fabricacao, embora nao resolva a alucinacao por completo.

Tom e formato: ensina um estilo amigavel, respostas estruturadas e registros culturais como os honorificos do coreano.

Limites e criticas

Reward hacking: o modelo explora fraquezas do modelo de recompensa para produzir respostas que parecem boas para os avaliadores, mas que nao sao de fato melhores.

Vies de feedback: os vieses culturais e pessoais dos anotadores acabam incorporados ao modelo de recompensa.

Alinhamento excessivo: torna-se cauteloso demais e recusa perguntas legitimas.

Custo: coletar feedback humano de alta qualidade e lento, caro e nao escala de forma limpa.

Tensao com a alucinacao: algumas pesquisas argumentam que o RLHF pode amplificar alucinacoes ao recompensar respostas que soam confiantes.

Variacoes e alternativas

DPO (Direct Preference Optimization): pula o modelo de recompensa e otimiza o LLM diretamente a partir dos dados de preferencia. Vem substituindo rapidamente o RLHF a partir de 2023.

Constitutional AI (CAI): a abordagem da Anthropic; em vez de feedback humano, usa uma "constituicao" explicita contra a qual o proprio modelo se autocritica e revisa.

RLAIF (RL from AI Feedback): usar outro LLM para fornecer julgamentos de preferencia em vez de humanos. Mais barato, mas com maior risco de vies.

Implicacoes para o GEO

Os LLMs modernos, gracas ao RLHF, sao alinhados a um tom neutro e util. O conteudo de blog que tende a ser citado pela busca por IA tende a uma escrita calma e informativa, em vez de uma redacao sensacionalista ou exagerada. Como o RLHF tambem recompensa citacoes e a incerteza apropriada, conteudo baseado em fatos com fontes explicitas tem mais chances de ser escolhido como candidato a citacao.

Fontes: