RLHF
基于人类反馈的强化学习(RLHF)是一种训练技术,它利用从人类那里收集的偏好数据来调整 LLM 的行为。一个未经处理的预训练 LLM 虽然语言流畅,但往往不够有用或不够安全;RLHF 是标准的对齐步骤,能把这种原始模型变成"人们真正愿意与之交谈的对话伙伴"。
基于人类反馈的强化学习(RLHF)是一种训练技术,它利用从人类那里收集的偏好数据来调整 LLM 的行为。一个未经处理的预训练 LLM 虽然语言流畅,但往往不够有用或不够安全;RLHF 是标准的对齐步骤,能把这种原始模型变成"人们真正愿意与之交谈的对话伙伴"。
为什么重要
RLHF 是 2022 年 ChatGPT 引起公众关注的核心原因。OpenAI 的 InstructGPT 论文表明,一个 13 亿参数的 RLHF 模型在人类偏好上胜过了 1750 亿参数的基础模型。其中的启示是:"与人类反馈对齐"比"把模型做得更大"是更强的杠杆。如今几乎每一款商用 LLM(Claude、GPT、Gemini、Llama)都搭载了某种形式的 RLHF 或其衍生方法。
三个阶段
1. 预训练:在海量文本语料上学习下一个 token 的预测。模型知识渊博,但不擅长遵循指令。
2. 有监督微调(SFT):在人工撰写的"好问题 → 好答案"配对上进行微调。模型学会聊天格式和遵循指令。
3. 正式的 RLHF:
- 训练奖励模型:向人类展示两个候选回答,询问哪个更好。在这些偏好配对上训练一个奖励模型。
- 强化学习优化:使用 PPO(近端策略优化)等强化学习算法来调整 LLM,使其最大化奖励模型给出的分数。
最终得到的仍然是一个语言模型,只不过其输出被调整得更贴合人类偏好。
RLHF 解决了什么
有用性:把"技术上能预测但毫无用处"的答案转变为"真正有用"的答案。
安全性:训练模型拒绝暴力、歧视或违法的内容。
诚实性:鼓励模型说"我不知道",而不是凭空编造,尽管它并不能完全解决幻觉问题。
语气与格式:教会模型友好的风格、结构化的回答,以及像韩语敬语这样的文化语域。
局限与批评
奖励作弊(Reward hacking):模型会利用奖励模型的弱点,生成在评估者看来不错、但实际上并未更好的答案。
反馈偏见:标注者在文化和个人层面的偏见会被固化进奖励模型。
过度对齐:变得过于谨慎,连合理的问题也加以拒绝。
成本:收集高质量的人类反馈缓慢且昂贵,难以干净利落地扩展。
与幻觉的张力:一些研究认为,RLHF 可能因为奖励那些听起来自信的答案,反而放大幻觉。
衍生方法与替代方案
DPO(直接偏好优化):跳过奖励模型,直接从偏好数据优化 LLM。自 2023 年以来正在迅速取代 RLHF。
Constitutional AI(CAI):Anthropic 的方法,不使用人类反馈,而是用一部明确的"宪法",让模型据此进行自我批评和自我修正。
RLAIF(基于 AI 反馈的强化学习):用另一个 LLM 而非人类来提供偏好判断。成本更低,但偏见风险更大。
对 GEO 的意义
得益于 RLHF,现代 LLM 被对齐到一种中立、有用的语气。倾向于被 AI 搜索引用的博客内容,更偏向平和、信息性的写作,而非煽动或夸张的文案。由于 RLHF 同样奖励引用和恰当的不确定性表达,带有明确来源、以事实为基础的内容更有可能被选为引用候选。
Sources: