什么是微调？| GEO 术语表

微调（Fine-Tuning）是一种技术，在预训练的 LLM 上用特定领域或特定任务的数据进一步训练，以塑造其风格、知识和行为。它是把一个通用模型变成品牌专属或行业专属的"定制版 GPT"的方法。

提示工程是有局限的。它在每次请求中重复同样的指令，消耗上下文窗口，而且无法把一致的风格完全锁定下来。微调会更新模型的权重，因此学到的行为会被内化，无需明确的指令。OpenAI 的研究显示，经过微调的 GPT-4o 在专门任务上的准确率，平均比仅靠提示高出 20% 至 30%。

全量微调（Full fine-tuning）：更新每一个参数。性能最高，但在算力和存储上最为昂贵。

LoRA（低秩适配）：保持原始权重冻结，只训练小型的适配器层。训练成本约为前者的百分之一，而且你可以按需切换 LoRA 适配器。这是 2026 年最广泛使用的做法。

PEFT（参数高效微调）：这是 LoRA、Adapters、Prefix-Tuning 等方法的统称，只训练一小部分参数。

RLHF / DPO：利用人类反馈或偏好比较来调优响应质量。这是 ChatGPT 和 Claude 背后核心的对齐技术。

SFT（监督式微调）：最基础的形式，在带标签的输入-输出对上训练。对于教会模型特定的格式或语气很有效。

这些方法是互补的，而非相互竞争。

经验法则：如果提示就能解决，微调就是杀鸡用牛刀。只有当你不断重复同样的指令，或者无法获得一致的语气时，才考虑动用微调。

数据质量就是一切：1,000 个高质量示例胜过 10,000 个带噪声的示例。标签的一致性和多样性决定了最终性能。

最少数据量：OpenAI 建议至少 50 至 100 个示例；实践中通常是 500 至 1,000 个。LoRA 用更少的数据也能奏效。

留出一个验证集：预留 10% 至 20% 的数据，用来检测过拟合。

从能胜任的最小基础模型起步：一个调优良好的小模型，在速度和成本上往往都能胜过一个仅靠提示的大模型。

先定义评估指标：在训练之前就决定好你将如何衡量准确率、风格一致性和事实性，这样才能追踪改进。

Sources: