什么是 RLHF？| GEO 术语表

基于人类反馈的强化学习（RLHF）是一种训练技术，它利用从人类那里收集的偏好数据来调整 LLM 的行为。一个未经处理的预训练 LLM 虽然语言流畅，但往往不够有用或不够安全；RLHF 是标准的对齐步骤，能把这种原始模型变成"人们真正愿意与之交谈的对话伙伴"。

为什么重要

RLHF 是 2022 年 ChatGPT 引起公众关注的核心原因。OpenAI 的 InstructGPT 论文表明，一个 13 亿参数的 RLHF 模型在人类偏好上胜过了 1750 亿参数的基础模型。其中的启示是："与人类反馈对齐"比"把模型做得更大"是更强的杠杆。如今几乎每一款商用 LLM（Claude、GPT、Gemini、Llama）都搭载了某种形式的 RLHF 或其衍生方法。

三个阶段

1. 预训练：在海量文本语料上学习下一个 token 的预测。模型知识渊博，但不擅长遵循指令。

2. 有监督微调（SFT）：在人工撰写的"好问题 → 好答案"配对上进行微调。模型学会聊天格式和遵循指令。

3. 正式的 RLHF：

训练奖励模型：向人类展示两个候选回答，询问哪个更好。在这些偏好配对上训练一个奖励模型。
强化学习优化：使用 PPO（近端策略优化）等强化学习算法来调整 LLM，使其最大化奖励模型给出的分数。

最终得到的仍然是一个语言模型，只不过其输出被调整得更贴合人类偏好。

RLHF 解决了什么

有用性：把"技术上能预测但毫无用处"的答案转变为"真正有用"的答案。

安全性：训练模型拒绝暴力、歧视或违法的内容。

诚实性：鼓励模型说"我不知道"，而不是凭空编造，尽管它并不能完全解决幻觉问题。

语气与格式：教会模型友好的风格、结构化的回答，以及像韩语敬语这样的文化语域。

局限与批评

奖励作弊（Reward hacking）：模型会利用奖励模型的弱点，生成在评估者看来不错、但实际上并未更好的答案。

反馈偏见：标注者在文化和个人层面的偏见会被固化进奖励模型。

过度对齐：变得过于谨慎，连合理的问题也加以拒绝。

成本：收集高质量的人类反馈缓慢且昂贵，难以干净利落地扩展。

与幻觉的张力：一些研究认为，RLHF 可能因为奖励那些听起来自信的答案，反而放大幻觉。

衍生方法与替代方案

DPO（直接偏好优化）：跳过奖励模型，直接从偏好数据优化 LLM。自 2023 年以来正在迅速取代 RLHF。

Constitutional AI（CAI）：Anthropic 的方法，不使用人类反馈，而是用一部明确的"宪法"，让模型据此进行自我批评和自我修正。

RLAIF（基于 AI 反馈的强化学习）：用另一个 LLM 而非人类来提供偏好判断。成本更低，但偏见风险更大。

对 GEO 的意义

得益于 RLHF，现代 LLM 被对齐到一种中立、有用的语气。倾向于被 AI 搜索引用的博客内容，更偏向平和、信息性的写作，而非煽动或夸张的文案。由于 RLHF 同样奖励引用和恰当的不确定性表达，带有明确来源、以事实为基础的内容更有可能被选为引用候选。

Sources: