RLHF
人間のフィードバックによる強化学習(RLHF: Reinforcement Learning from Human Feedback)とは、人間から収集した好みのデータを用いてLLMの挙動を調整する学習手法です。事前学習しただけの生のLLMは流暢ではあるものの、しばしば役に立たなかったり安全でなかったりします。RLHFは、その生のモデルを「人々が実際に好む対話相手」へと変える、標準的なアライメントのステップです。
人間のフィードバックによる強化学習(RLHF: Reinforcement Learning from Human Feedback)とは、人間から収集した好みのデータを用いてLLMの挙動を調整する学習手法です。事前学習しただけの生のLLMは流暢ではあるものの、しばしば役に立たなかったり安全でなかったりします。RLHFは、その生のモデルを「人々が実際に好む対話相手」へと変える、標準的なアライメントのステップです。
なぜ重要なのか
RLHFは、ChatGPTが2022年に世間の注目を集めた中核的な理由でした。OpenAIのInstructGPT論文では、13億パラメータのRLHFモデルが、1,750億パラメータのベースモデルよりも人間に好まれたことが示されました。その教訓は、「人間のフィードバックに合わせる」ことが「モデルを大きくする」ことよりも強力なレバーであるということです。今日では、Claude、GPT、Gemini、Llamaなど、ほぼすべての商用LLMが、何らかの形のRLHFまたはその派生手法を備えて出荷されています。
3つの段階
1. 事前学習: 巨大なテキストコーパスで次トークン予測を学習します。モデルは知識豊富ですが、指示に従うのが苦手です。
2. 教師ありファインチューニング(SFT): 人間が書いた「良い質問 → 良い回答」のペアでファインチューニングします。モデルはチャット形式と指示への追従を学びます。
3. RLHF本体:
- 報酬モデルの学習: 人間に2つの候補回答を見せ、どちらが優れているかを尋ねます。これらの好みのペアで報酬モデルを学習します。
- RLによる最適化: PPO(Proximal Policy Optimization)のようなRLアルゴリズムを使い、報酬モデルのスコアを最大化するようにLLMを調整します。
その結果も依然として言語モデルですが、その出力は人間の好みに合わせて調整されています。
RLHFが解決すること
有用性: 「技術的には予測的だが役に立たない」回答を、「実際に役立つ」ものへと変えます。
安全性: 暴力的、差別的、違法なコンテンツを拒否するようにモデルを学習させます。
誠実さ: 捏造よりも「分かりません」を促します。ただし、ハルシネーションを完全に解決するわけではありません。
トーンと形式: 親しみやすい文体、構造化された回答、そして日本語の敬語のような文化的な言葉遣いを教えます。
限界と批判
報酬ハッキング: モデルは報酬モデルの弱点を突き、評価者にとって良く見えるが実際にはより優れているわけではない回答を生成します。
フィードバックのバイアス: ラベル付けを行う人の文化的・個人的なバイアスが、報酬モデルに焼き付けられます。
過剰なアライメント: 過度に慎重になり、正当な質問を拒否してしまいます。
コスト: 高品質な人間のフィードバックの収集は遅くて高価であり、きれいにスケールしません。
ハルシネーションとの緊張関係: 一部の研究は、RLHFが自信ありげに聞こえる回答を報酬として与えることで、ハルシネーションを増幅しうると主張しています。
派生手法と代替手法
DPO(Direct Preference Optimization): 報酬モデルを省略し、好みのデータから直接LLMを最適化します。2023年以降、急速にRLHFを置き換えつつあります。
Constitutional AI(CAI): Anthropicのアプローチで、人間のフィードバックの代わりに、モデルが自らを批評・修正するための明示的な「憲法」を使います。
RLAIF(RL from AI Feedback): 人間の代わりに別のLLMに好みの判断を提供させます。より安価ですが、バイアスのリスクは高まります。
GEOへの示唆
現代のLLMは、RLHFのおかげで、中立的で有用なトーンに合わせられています。AI検索に引用されやすいブログコンテンツは、扇情的だったり誇張された文章よりも、落ち着いた情報提供型の書き方に寄っています。RLHFは引用や適切な不確実性の表現も報酬として与えるため、明示的な情報源を伴う事実ベースのコンテンツは、引用候補として選ばれやすくなります。
Sources: