Temperatura
La temperatura es un parámetro que controla qué tan "marcada" es la distribución de probabilidad de un LLM al muestrear el siguiente token. Los valores bajos sesgan hacia los tokens más probables para obtener una salida consistente y predecible; los valores altos permiten muestrear tokens menos probables, produciendo respuestas más creativas y variadas. La mayoría de las API aceptan valores de 0 a 2.
La temperatura es un parámetro que controla qué tan "marcada" es la distribución de probabilidad de un LLM al muestrear el siguiente token. Los valores bajos sesgan hacia los tokens más probables para obtener una salida consistente y predecible; los valores altos permiten muestrear tokens menos probables, produciendo respuestas más creativas y variadas. La mayoría de las API aceptan valores de 0 a 2.
Por qué es importante
El mismo prompt a temperatura 0,2 y a 1,0 produce un tono, una longitud y una creatividad completamente diferentes. Para los borradores de blog generados por IA, un valor demasiado bajo significa una prosa mecánica y predecible; demasiado alto significa un aumento de los errores factuales y las alucinaciones. Ajustar la temperatura de forma intencional junto con la ingeniería de prompts es el requisito previo para una calidad estable del contenido de IA.
Comportamiento por rango
| Temperatura | Característica | Tareas adecuadas |
|---|---|---|
| 0,0 – 0,2 | Determinista, reproducible | Clasificación, extracción, código, preguntas y respuestas factuales |
| 0,3 – 0,5 | Consistente con ligera variación | Resumen, traducción, respuestas estructuradas |
| 0,6 – 0,8 | Creatividad natural | Borradores de blog, correos, textos de marketing |
| 0,9 – 1,2 | Diverso, creativo | Ideación, lluvia de ideas |
| 1,3+ | Ruidoso, más alucinaciones | Rara vez usado en producción |
Temperatura vs top-p
Otro parámetro de muestreo común es top-p (muestreo de núcleo), que solo considera los tokens cuya probabilidad acumulada alcanza p.
- La temperatura remodela toda la distribución de probabilidad.
- Top-p limita el tamaño del conjunto de candidatos.
- No ajustes ambos: Tanto OpenAI como Anthropic recomiendan ajustar solo uno. Ajustar ambos hace que el comportamiento sea impredecible.
Valores recomendados por tarea
Entradas basadas en hechos (tutoriales, guías): 0,2 – 0,4. La precisión primero, la creatividad al mínimo.
Borradores de blog (ensayos, análisis): 0,6 – 0,7. Oraciones naturales con una voz consistente.
Ideación (variantes de títulos, opciones de texto): 0,9 – 1,0. La diversidad es el objetivo.
Resumen y traducción: 0,0 – 0,3. La reproducibilidad importa.
Preguntas frecuentes y definiciones: 0,0 – 0,2. La misma pregunta debería obtener la misma respuesta.
Advertencias
Correlación con la alucinación: Una temperatura más alta significa que el modelo muestrea más tokens fuera de la distribución principal de entrenamiento, lo que eleva las tasas de error factual. Para las tareas sensibles a la alucinación, baja siempre la temperatura.
Reproducibilidad: La temperatura 0 no es perfectamente determinista. Fija también el parámetro seed si necesitas salidas idénticas.
Valores por defecto: Los valores por defecto difieren según la API (OpenAI 1,0, Anthropic 1,0, Google ~1,0). Llamar sin establecer uno produce una salida más creativa de lo que podrías esperar.
Sources: