O que e Temperatura em LLMs? | Glossario GEO

A temperatura e um parametro que controla o quao "afiada" e a distribuicao de probabilidade de um LLM ao amostrar o proximo token. Valores baixos puxam para os tokens mais provaveis, gerando uma saida consistente e previsivel; valores altos permitem que tokens menos provaveis sejam amostrados, produzindo respostas mais criativas e variadas. A maioria das APIs aceita valores de 0 a 2.

Por Que Importa

O mesmo prompt em temperatura 0.2 e em 1.0 produz tom, comprimento e criatividade completamente diferentes. Para rascunhos de blog gerados por IA, valores muito baixos resultam em prosa mecanica e previsivel; valores muito altos aumentam os erros factuais e as alucinacoes. Definir a temperatura de forma intencional junto com a engenharia de prompt e o pre-requisito para uma qualidade estavel do conteudo de IA.

Comportamento por Faixa

Temperatura	Caracteristica	Tarefas adequadas
0.0 - 0.2	Deterministica, reproduzivel	Classificacao, extracao, codigo, QA factual
0.3 - 0.5	Consistente com leve variacao	Resumo, traducao, respostas estruturadas
0.6 - 0.8	Criatividade natural	Rascunhos de blog, e-mails, copy de marketing
0.9 - 1.2	Diversa, criativa	Ideacao, brainstorming
1.3+	Ruidosa, mais alucinacoes	Raramente usada em producao

Temperatura vs Top-p

Outro parametro de amostragem comum e o top-p (nucleus sampling), que considera apenas tokens cuja probabilidade cumulativa atinge p.

A temperatura remodela toda a distribuicao de probabilidade.
O top-p limita o tamanho do conjunto de candidatos.
Nao ajuste os dois: tanto a OpenAI quanto a Anthropic recomendam ajustar apenas um. Ajustar ambos torna o comportamento imprevisivel.

Valores Recomendados por Tarefa

Posts baseados em fatos (tutoriais, guias): 0.2 - 0.4. Precisao em primeiro lugar, criatividade minima.

Rascunhos de blog (ensaios, analises): 0.6 - 0.7. Frases naturais com voz consistente.

Ideacao (variantes de titulo, opcoes de copy): 0.9 - 1.0. A diversidade e o objetivo.

Resumo e traducao: 0.0 - 0.3. A reprodutibilidade importa.

FAQs e definicoes: 0.0 - 0.2. A mesma pergunta deve receber a mesma resposta.

Pontos de Atencao

Correlacao com alucinacao: temperatura mais alta significa que o modelo amostra mais tokens fora da distribuicao principal de treinamento, elevando as taxas de erro factual. Para tarefas sensiveis a alucinacao, sempre reduza a temperatura.

Reprodutibilidade: a temperatura 0 nao e perfeitamente deterministica. Fixe tambem o parametro seed se voce precisar de saidas identicas.

Valores padrao: os padroes diferem por API (OpenAI 1.0, Anthropic 1.0, Google ~1.0). Chamar sem definir um valor produz uma saida mais criativa do que voce poderia esperar.

Fontes: