温度
温度是一个参数,它控制 LLM 在采样下一个 token 时其概率分布有多"陡峭"。较低的取值会偏向概率最高的 token,从而产生一致、可预测的输出;较高的取值则允许采样概率较低的 token,产生更具创造性和多样性的回答。大多数 API 接受 0 到 2 之间的取值。
温度是一个参数,它控制 LLM 在采样下一个 token 时其概率分布有多"陡峭"。较低的取值会偏向概率最高的 token,从而产生一致、可预测的输出;较高的取值则允许采样概率较低的 token,产生更具创造性和多样性的回答。大多数 API 接受 0 到 2 之间的取值。
为什么重要
同一条提示词在温度 0.2 和 1.0 下会产生完全不同的语气、长度和创造性。对于 AI 生成的博客初稿,温度过低会让文字显得机械、可预测;温度过高则会让事实性错误和幻觉增多。在进行提示词工程的同时有意识地设定温度,是稳定 AI 内容质量的前提。
各取值区间的表现
| 温度 | 特点 | 适合的任务 |
|---|---|---|
| 0.0~0.2 | 确定、可复现 | 分类、抽取、代码、事实型问答 |
| 0.3~0.5 | 一致并带少量变化 | 摘要、翻译、结构化答案 |
| 0.6~0.8 | 自然的创造性 | 博客初稿、邮件、营销文案 |
| 0.9~1.2 | 多样、有创意 | 创意构思、头脑风暴 |
| 1.3 以上 | 噪声多、幻觉更频繁 | 生产中很少使用 |
温度 vs Top-p
另一个常用的采样参数是 top-p(核采样),它只考虑累计概率达到 p 的那些 token。
- 温度会重塑整个概率分布。
- Top-p 限制候选池的大小。
- 不要同时调两者:OpenAI 和 Anthropic 都建议只调整其中一个。同时调整会让行为变得难以预测。
各任务的推荐取值
事实型文章(教程、指南):0.2~0.4。准确性优先,创造性最小化。
博客初稿(随笔、分析):0.6~0.7。句子自然,语调一致。
创意构思(标题变体、文案备选):0.9~1.0。多样性正是目的所在。
摘要与翻译:0.0~0.3。可复现性很重要。
常见问题与定义:0.0~0.2。同一问题应得到相同的答案。
注意事项
与幻觉相关:温度越高,模型采样到主训练分布之外 token 的概率就越大,从而提高事实性错误率。对于对幻觉敏感的任务,务必降低温度。
可复现性:温度为 0 并非完全确定。如果你需要完全相同的输出,还应固定 seed 参数。
默认值:各 API 的默认值不同(OpenAI 1.0、Anthropic 1.0、Google 约 1.0)。在不设定温度的情况下调用,得到的输出会比你预期的更有创意。
Sources: