ファインチューニング
ファインチューニングとは、事前学習済みのLLMを、ドメインやタスクに固有のデータでさらに学習させ、そのスタイル、知識、振る舞いを形づくる手法です。汎用モデルを、ブランド固有または業界固有の「カスタムGPT」に変える方法です。
ファインチューニングとは、事前学習済みのLLMを、ドメインやタスクに固有のデータでさらに学習させ、そのスタイル、知識、振る舞いを形づくる手法です。汎用モデルを、ブランド固有または業界固有の「カスタムGPT」に変える方法です。
なぜ重要なのか
プロンプトエンジニアリングには限界があります。リクエストのたびに同じ指示を繰り返し、コンテキストウィンドウを消費し、一貫したスタイルを完全に固定することはできません。ファインチューニングはモデルの重みを更新するため、学習された振る舞いが明示的な指示なしに組み込まれます。OpenAIの研究によれば、ファインチューニングされたGPT-4oは、プロンプティングのみと比べて専門タスクで平均20〜30%高い精度を示します。
ファインチューニングの種類
フルファインチューニング: すべてのパラメータを更新します。最高の性能を発揮しますが、計算とストレージの面で最もコストがかかります。
LoRA(Low-Rank Adaptation): 元の重みを凍結したまま、小さなアダプター層を学習します。学習コストはおよそ100分の1で、必要に応じてLoRAアダプターを差し替えられます。2026年に最も広く使われているアプローチです。
PEFT(Parameter-Efficient Fine-Tuning): LoRA、Adapters、Prefix-Tuningといった手法の総称で、ごく一部のパラメータのみを学習します。
RLHF / DPO: 人間のフィードバックや選好の比較を使って回答品質を調整します。ChatGPTとClaudeの背後にある中核的なアライメント手法です。
SFT(Supervised Fine-Tuning): 最も基本的な形式で、ラベル付けされた入力と出力のペアで学習します。特定の形式やトーンを教えるのに効果的です。
ファインチューニング vs プロンプティング vs RAG
これらのアプローチは競合するものではなく、補完し合うものです。
| 目的 | 最適なアプローチ |
|---|---|
| 一貫したスタイル/トーン | ファインチューニング |
| 形式や言語の順守 | ファインチューニングまたはプロンプティング |
| リアルタイムの最新情報 | RAG |
| 社内ドキュメント | RAG |
| 深いドメイン知識(医療、法律) | ファインチューニング + RAG |
| 単発または変化するタスク | プロンプティング |
経験則: プロンプティングで解決できるなら、ファインチューニングは過剰です。同じ指示を絶えず繰り返している場合や、一貫したトーンが得られない場合にのみ、ファインチューニングに手を伸ばしましょう。
実践的なヒント
データ品質がすべて: 高品質な1,000個の例は、ノイズの多い10,000個に勝ります。ラベルの一貫性と多様性が最終的な性能を決めます。
最小限のデータ量: OpenAIは少なくとも50〜100個の例を推奨していますが、実践では500〜1,000個が一般的です。LoRAはより少ないデータでも機能します。
検証セットを確保する: データの10〜20%を取り分け、過学習を検出します。
性能を満たす最小のベースモデルから始める: よく調整された小さなモデルは、速度とコストの両面で、プロンプティングした大きなモデルにしばしば勝ります。
評価指標を先に定義する: 学習前に、精度、スタイルの一貫性、事実性をどう測定するかを決めておき、改善を追跡できるようにします。
Sources: