GEO

微调

微调(Fine-Tuning)是一种技术,在预训练的 LLM 上用特定领域或特定任务的数据进一步训练,以塑造其风格、知识和行为。它是把一个通用模型变成品牌专属或行业专属的"定制版 GPT"的方法。

微调(Fine-Tuning)是一种技术,在预训练的 LLM 上用特定领域或特定任务的数据进一步训练,以塑造其风格、知识和行为。它是把一个通用模型变成品牌专属或行业专属的"定制版 GPT"的方法。

为什么重要

提示工程 是有局限的。它在每次请求中重复同样的指令,消耗 上下文窗口,而且无法把一致的风格完全锁定下来。微调会更新模型的权重,因此学到的行为会被内化,无需明确的指令。OpenAI 的研究显示,经过微调的 GPT-4o 在专门任务上的准确率,平均比仅靠提示高出 20% 至 30%。

微调的类型

全量微调(Full fine-tuning):更新每一个参数。性能最高,但在算力和存储上最为昂贵。

LoRA(低秩适配):保持原始权重冻结,只训练小型的适配器层。训练成本约为前者的百分之一,而且你可以按需切换 LoRA 适配器。这是 2026 年最广泛使用的做法。

PEFT(参数高效微调):这是 LoRA、Adapters、Prefix-Tuning 等方法的统称,只训练一小部分参数。

RLHF / DPO:利用人类反馈或偏好比较来调优响应质量。这是 ChatGPT 和 Claude 背后核心的对齐技术。

SFT(监督式微调):最基础的形式,在带标签的输入-输出对上训练。对于教会模型特定的格式或语气很有效。

微调 vs 提示 vs RAG

这些方法是互补的,而非相互竞争。

目标最佳方法
一致的风格/语气微调
遵循格式或语言微调 或提示
实时的新鲜信息RAG
公司内部文档RAG
深厚的领域知识(医疗、法律)微调 + RAG
一次性或会变动的任务提示

经验法则:如果提示就能解决,微调就是杀鸡用牛刀。只有当你不断重复同样的指令,或者无法获得一致的语气时,才考虑动用微调。

实用技巧

数据质量就是一切:1,000 个高质量示例胜过 10,000 个带噪声的示例。标签的一致性和多样性决定了最终性能。

最少数据量:OpenAI 建议至少 50 至 100 个示例;实践中通常是 500 至 1,000 个。LoRA 用更少的数据也能奏效。

留出一个验证集:预留 10% 至 20% 的数据,用来检测过拟合。

从能胜任的最小基础模型起步:一个调优良好的小模型,在速度和成本上往往都能胜过一个仅靠提示的大模型。

先定义评估指标:在训练之前就决定好你将如何衡量准确率、风格一致性和事实性,这样才能追踪改进。

Sources: