Was ist RLHF? | GEO-Glossar

Reinforcement Learning from Human Feedback (RLHF) ist eine Trainingstechnik, die das Verhalten eines LLM mit von Menschen erhobenen Präferenzdaten justiert. Ein rohes, vortrainiertes LLM ist sprachgewandt, aber oft wenig hilfreich oder unsicher; RLHF ist der standardmäßige Ausrichtungsschritt, der dieses rohe Modell in "einen Gesprächspartner verwandelt, den Menschen tatsächlich bevorzugen".

Warum es wichtig ist

RLHF war der zentrale Grund, warum ChatGPT 2022 die öffentliche Aufmerksamkeit auf sich zog. OpenAIs InstructGPT-Paper zeigte, dass ein RLHF-Modell mit 1,3 Milliarden Parametern von Menschen gegenüber dem Basismodell mit 175 Milliarden Parametern bevorzugt wurde. Die Lehre: "An menschlichem Feedback ausrichten" ist ein stärkerer Hebel als "das Modell größer machen". Nahezu jedes kommerzielle LLM heute, ob Claude, GPT, Gemini oder Llama, wird mit einer Form von RLHF oder einer Ableitung davon ausgeliefert.

Drei Stufen

1. Vortraining (Pre-Training): Vorhersage des nächsten Tokens auf einem riesigen Textkorpus erlernen. Das Modell ist sachkundig, aber schlecht im Befolgen von Anweisungen.

2. Überwachtes Fine-Tuning (SFT): Feinabstimmung auf von Menschen verfasste Paare aus "gute Frage -> gute Antwort". Das Modell lernt das Chat-Format und das Befolgen von Anweisungen.

3. RLHF im eigentlichen Sinne:

Ein Belohnungsmodell trainieren: Menschen zwei Antwortkandidaten zeigen und fragen, welcher besser ist. Auf diesen Präferenzpaaren ein Belohnungsmodell trainieren.
RL-Optimierung: Einen RL-Algorithmus wie PPO (Proximal Policy Optimization) nutzen, um das LLM so anzupassen, dass es die Bewertungen des Belohnungsmodells maximiert.

Das Ergebnis ist weiterhin ein Sprachmodell, jedoch eines, dessen Ausgaben auf menschliche Präferenzen abgestimmt sind.

Was RLHF löst

Nützlichkeit: Verwandelt "technisch vorhersagende, aber nutzlose" Antworten in "tatsächlich nützliche".

Sicherheit: Trainiert das Modell darauf, gewalttätige, diskriminierende oder illegale Inhalte zu verweigern.

Ehrlichkeit: Fördert "Ich weiß es nicht" gegenüber Erfindungen, löst Halluzination jedoch nicht vollständig.

Ton und Format: Vermittelt einen freundlichen Stil, strukturierte Antworten und kulturelle Register wie koreanische Höflichkeitsformen.

Grenzen und Kritik

Reward Hacking: Das Modell nutzt Schwächen des Belohnungsmodells aus, um Antworten zu erzeugen, die für Bewerter gut aussehen, aber nicht tatsächlich besser sind.

Feedback-Bias: Die kulturellen und persönlichen Voreingenommenheiten der Datenkennzeichner werden in das Belohnungsmodell einprogrammiert.

Überausrichtung: Wird übermäßig vorsichtig und verweigert legitime Fragen.

Kosten: Das Sammeln hochwertigen menschlichen Feedbacks ist langsam und teuer und skaliert nicht sauber.

Spannung mit Halluzination: Manche Forschung argumentiert, dass RLHF Halluzinationen verstärken kann, indem es selbstbewusst klingende Antworten belohnt.

Ableitungen und Alternativen

DPO (Direct Preference Optimization): Überspringt das Belohnungsmodell und optimiert das LLM direkt aus Präferenzdaten. Verdrängt RLHF nach 2023 rasch.

Constitutional AI (CAI): Anthropics Ansatz, statt menschlichen Feedbacks eine explizite "Verfassung" zu nutzen, an der sich das Modell selbst kritisiert und überarbeitet.

RLAIF (RL from AI Feedback): Ein anderes LLM statt Menschen Präferenzurteile abgeben lassen. Günstiger, aber höheres Bias-Risiko.

Bedeutung für GEO

Moderne LLMs sind dank RLHF auf einen neutralen, nützlichen Ton ausgerichtet. Blog-Inhalte, die von der AI-Suche tendenziell zitiert werden, setzen eher auf sachliche, informative Schreibweise als auf reißerische oder übertriebene Texte. Da RLHF auch Quellenangaben und angemessene Unsicherheit belohnt, werden faktenbasierte Inhalte mit expliziten Quellen mit höherer Wahrscheinlichkeit als Zitierkandidaten ausgewählt.

Sources: