GEO

温度

温度是一个参数,它控制 LLM 在采样下一个 token 时其概率分布有多"陡峭"。较低的取值会偏向概率最高的 token,从而产生一致、可预测的输出;较高的取值则允许采样概率较低的 token,产生更具创造性和多样性的回答。大多数 API 接受 0 到 2 之间的取值。

温度是一个参数,它控制 LLM 在采样下一个 token 时其概率分布有多"陡峭"。较低的取值会偏向概率最高的 token,从而产生一致、可预测的输出;较高的取值则允许采样概率较低的 token,产生更具创造性和多样性的回答。大多数 API 接受 0 到 2 之间的取值。

为什么重要

同一条提示词在温度 0.2 和 1.0 下会产生完全不同的语气、长度和创造性。对于 AI 生成的博客初稿,温度过低会让文字显得机械、可预测;温度过高则会让事实性错误和幻觉增多。在进行提示词工程的同时有意识地设定温度,是稳定 AI 内容质量的前提。

各取值区间的表现

温度特点适合的任务
0.0~0.2确定、可复现分类、抽取、代码、事实型问答
0.3~0.5一致并带少量变化摘要、翻译、结构化答案
0.6~0.8自然的创造性博客初稿、邮件、营销文案
0.9~1.2多样、有创意创意构思、头脑风暴
1.3 以上噪声多、幻觉更频繁生产中很少使用

温度 vs Top-p

另一个常用的采样参数是 top-p(核采样),它只考虑累计概率达到 p 的那些 token。

  • 温度会重塑整个概率分布。
  • Top-p 限制候选池的大小。
  • 不要同时调两者:OpenAI 和 Anthropic 都建议只调整其中一个。同时调整会让行为变得难以预测。

各任务的推荐取值

事实型文章(教程、指南):0.2~0.4。准确性优先,创造性最小化。

博客初稿(随笔、分析):0.6~0.7。句子自然,语调一致。

创意构思(标题变体、文案备选):0.9~1.0。多样性正是目的所在。

摘要与翻译:0.0~0.3。可复现性很重要。

常见问题与定义:0.0~0.2。同一问题应得到相同的答案。

注意事项

幻觉相关:温度越高,模型采样到主训练分布之外 token 的概率就越大,从而提高事实性错误率。对于对幻觉敏感的任务,务必降低温度。

可复现性:温度为 0 并非完全确定。如果你需要完全相同的输出,还应固定 seed 参数。

默认值:各 API 的默认值不同(OpenAI 1.0、Anthropic 1.0、Google 约 1.0)。在不设定温度的情况下调用,得到的输出会比你预期的更有创意。

Sources: