O que e RLHF? | Glossario GEO

RLHF (Reinforcement Learning from Human Feedback, ou Aprendizado por Reforco com Feedback Humano) e uma tecnica de treinamento que ajusta o comportamento de um LLM com dados de preferencia coletados de humanos. Um LLM pre-treinado bruto e fluente, mas frequentemente pouco util ou inseguro; o RLHF e a etapa padrao de alinhamento que transforma esse modelo bruto em "um parceiro de conversa que as pessoas de fato preferem".

Por que importa

O RLHF foi a razao central pela qual o ChatGPT capturou a atencao do publico em 2022. O artigo do InstructGPT da OpenAI mostrou que um modelo RLHF de 1,3 bilhao de parametros foi preferido por humanos em relacao ao modelo base de 175 bilhoes de parametros. A licao: "alinhar com feedback humano" e uma alavanca mais forte do que "tornar o modelo maior". Quase todo LLM comercial hoje (Claude, GPT, Gemini, Llama) e lancado com alguma forma de RLHF ou de uma variacao dele.

Tres etapas

1. Pre-treinamento: aprender a previsao do proximo token em um enorme corpus de texto. O modelo tem muito conhecimento, mas e ruim em seguir instrucoes.

2. Ajuste fino supervisionado (SFT): ajuste fino em pares "boa pergunta → boa resposta" escritos por humanos. O modelo aprende o formato de chat e a seguir instrucoes.

3. RLHF propriamente dito:

Treinar um modelo de recompensa: mostrar a humanos duas respostas candidatas e perguntar qual e melhor. Treinar um modelo de recompensa com esses pares de preferencia.
Otimizacao por RL: usar um algoritmo de RL como o PPO (Proximal Policy Optimization) para ajustar o LLM de modo a maximizar as pontuacoes do modelo de recompensa.

O resultado ainda e um modelo de linguagem, mas um cujas saidas sao ajustadas em direcao as preferencias humanas.

O que o RLHF resolve

Utilidade: converte respostas "tecnicamente preditivas, mas inuteis" em respostas "de fato uteis".

Seguranca: treina o modelo a recusar conteudo violento, discriminatorio ou ilegal.

Honestidade: incentiva o "eu nao sei" em vez da fabricacao, embora nao resolva a alucinacao por completo.

Tom e formato: ensina um estilo amigavel, respostas estruturadas e registros culturais como os honorificos do coreano.

Limites e criticas

Reward hacking: o modelo explora fraquezas do modelo de recompensa para produzir respostas que parecem boas para os avaliadores, mas que nao sao de fato melhores.

Vies de feedback: os vieses culturais e pessoais dos anotadores acabam incorporados ao modelo de recompensa.

Alinhamento excessivo: torna-se cauteloso demais e recusa perguntas legitimas.

Custo: coletar feedback humano de alta qualidade e lento, caro e nao escala de forma limpa.

Tensao com a alucinacao: algumas pesquisas argumentam que o RLHF pode amplificar alucinacoes ao recompensar respostas que soam confiantes.

Variacoes e alternativas

DPO (Direct Preference Optimization): pula o modelo de recompensa e otimiza o LLM diretamente a partir dos dados de preferencia. Vem substituindo rapidamente o RLHF a partir de 2023.

Constitutional AI (CAI): a abordagem da Anthropic; em vez de feedback humano, usa uma "constituicao" explicita contra a qual o proprio modelo se autocritica e revisa.

RLAIF (RL from AI Feedback): usar outro LLM para fornecer julgamentos de preferencia em vez de humanos. Mais barato, mas com maior risco de vies.

Implicacoes para o GEO

Os LLMs modernos, gracas ao RLHF, sao alinhados a um tom neutro e util. O conteudo de blog que tende a ser citado pela busca por IA tende a uma escrita calma e informativa, em vez de uma redacao sensacionalista ou exagerada. Como o RLHF tambem recompensa citacoes e a incerteza apropriada, conteudo baseado em fatos com fontes explicitas tem mais chances de ser escolhido como candidato a citacao.

Fontes: