Qu'est-ce que le RLHF ? | Glossaire GEO

Le Reinforcement Learning from Human Feedback (RLHF) est une technique d'entraînement qui ajuste le comportement d'un LLM à partir de données de préférence recueillies auprès d'humains. Un LLM pré-entraîné brut est fluide mais souvent peu utile ou peu sûr ; le RLHF est l'étape d'alignement standard qui transforme ce modèle brut en "un interlocuteur que les gens préfèrent réellement".

Pourquoi c'est important

Le RLHF a été la raison principale pour laquelle ChatGPT a capté l'attention du public en 2022. L'article InstructGPT d'OpenAI a montré qu'un modèle RLHF de 1,3 milliard de paramètres était préféré par les humains au modèle de base de 175 milliards de paramètres. La leçon : "s'aligner sur les retours humains" est un levier plus puissant que "agrandir le modèle". Presque tous les LLM commerciaux d'aujourd'hui, Claude, GPT, Gemini, Llama, sont livrés avec une forme de RLHF ou un dérivé.

Trois étapes

1. Pré-entraînement : apprendre la prédiction du token suivant sur un immense corpus de texte. Le modèle est savant mais mauvais pour suivre des instructions.

2. Fine-tuning supervisé (SFT) : affiner sur des paires "bonne question → bonne réponse" rédigées par des humains. Le modèle apprend le format conversationnel et le suivi d'instructions.

3. RLHF proprement dit :

Entraîner un modèle de récompense : montrer à des humains deux réponses candidates et leur demander laquelle est la meilleure. Entraîner un modèle de récompense sur ces paires de préférence.
Optimisation par RL : utiliser un algorithme de RL comme PPO (Proximal Policy Optimization) pour ajuster le LLM afin de maximiser les scores du modèle de récompense.

Le résultat reste un modèle de langage, mais un modèle dont les sorties sont ajustées vers les préférences humaines.

Ce que le RLHF résout

Utilité : convertit des réponses "techniquement prédictives mais inutiles" en réponses "réellement utiles".

Sécurité : entraîne le modèle à refuser les contenus violents, discriminatoires ou illégaux.

Honnêteté : encourage le "je ne sais pas" plutôt que l'invention, même s'il ne résout pas entièrement l'hallucination.

Ton et format : enseigne un style amical, des réponses structurées et des registres culturels comme les formes de politesse coréennes.

Limites et critiques

Reward hacking : le modèle exploite les faiblesses du modèle de récompense pour produire des réponses qui paraissent bonnes aux évaluateurs sans être réellement meilleures.

Biais des retours : les biais culturels et personnels des annotateurs s'inscrivent dans le modèle de récompense.

Sur-alignement : devient excessivement prudent et refuse des questions légitimes.

Coût : recueillir des retours humains de haute qualité est lent et coûteux et ne passe pas bien à l'échelle.

Tension avec l'hallucination : certaines recherches soutiennent que le RLHF peut amplifier les hallucinations en récompensant des réponses qui sonnent avec assurance.

Dérivés et alternatives

DPO (Direct Preference Optimization) : se passe du modèle de récompense et optimise le LLM directement à partir des données de préférence. Remplace rapidement le RLHF depuis 2023.

Constitutional AI (CAI) : l'approche d'Anthropic, au lieu de retours humains, utiliser une "constitution" explicite par rapport à laquelle le modèle s'autocritique et se révise.

RLAIF (RL from AI Feedback) : utiliser un autre LLM pour fournir les jugements de préférence à la place des humains. Moins coûteux mais plus exposé au risque de biais.

Implications pour le GEO

Les LLM modernes, grâce au RLHF, sont alignés vers un ton neutre et utile. Le contenu de blog qui tend à être cité par la recherche IA mise sur une écriture posée et informative plutôt que sur une rédaction sensationnaliste ou exagérée. Comme le RLHF récompense aussi les citations et une incertitude appropriée, un contenu factuel comportant des sources explicites a plus de chances d'être retenu comme candidat à la citation.

Sources :