¿Qué es la temperatura en los LLM? | Glosario GEO

La temperatura es un parámetro que controla qué tan "marcada" es la distribución de probabilidad de un LLM al muestrear el siguiente token. Los valores bajos sesgan hacia los tokens más probables para obtener una salida consistente y predecible; los valores altos permiten muestrear tokens menos probables, produciendo respuestas más creativas y variadas. La mayoría de las API aceptan valores de 0 a 2.

Por qué es importante

El mismo prompt a temperatura 0,2 y a 1,0 produce un tono, una longitud y una creatividad completamente diferentes. Para los borradores de blog generados por IA, un valor demasiado bajo significa una prosa mecánica y predecible; demasiado alto significa un aumento de los errores factuales y las alucinaciones. Ajustar la temperatura de forma intencional junto con la ingeniería de prompts es el requisito previo para una calidad estable del contenido de IA.

Comportamiento por rango

Temperatura	Característica	Tareas adecuadas
0,0 – 0,2	Determinista, reproducible	Clasificación, extracción, código, preguntas y respuestas factuales
0,3 – 0,5	Consistente con ligera variación	Resumen, traducción, respuestas estructuradas
0,6 – 0,8	Creatividad natural	Borradores de blog, correos, textos de marketing
0,9 – 1,2	Diverso, creativo	Ideación, lluvia de ideas
1,3+	Ruidoso, más alucinaciones	Rara vez usado en producción

Temperatura vs top-p

Otro parámetro de muestreo común es top-p (muestreo de núcleo), que solo considera los tokens cuya probabilidad acumulada alcanza p.

La temperatura remodela toda la distribución de probabilidad.
Top-p limita el tamaño del conjunto de candidatos.
No ajustes ambos: Tanto OpenAI como Anthropic recomiendan ajustar solo uno. Ajustar ambos hace que el comportamiento sea impredecible.

Valores recomendados por tarea

Entradas basadas en hechos (tutoriales, guías): 0,2 – 0,4. La precisión primero, la creatividad al mínimo.

Borradores de blog (ensayos, análisis): 0,6 – 0,7. Oraciones naturales con una voz consistente.

Ideación (variantes de títulos, opciones de texto): 0,9 – 1,0. La diversidad es el objetivo.

Resumen y traducción: 0,0 – 0,3. La reproducibilidad importa.

Preguntas frecuentes y definiciones: 0,0 – 0,2. La misma pregunta debería obtener la misma respuesta.

Advertencias

Correlación con la alucinación: Una temperatura más alta significa que el modelo muestrea más tokens fuera de la distribución principal de entrenamiento, lo que eleva las tasas de error factual. Para las tareas sensibles a la alucinación, baja siempre la temperatura.

Reproducibilidad: La temperatura 0 no es perfectamente determinista. Fija también el parámetro seed si necesitas salidas idénticas.

Valores por defecto: Los valores por defecto difieren según la API (OpenAI 1,0, Anthropic 1,0, Google ~1,0). Llamar sin establecer uno produce una salida más creativa de lo que podrías esperar.

Sources: