Qu'est-ce que la température dans les LLM ? | Glossaire GEO

La température est un paramètre qui contrôle la "netteté" de la distribution de probabilité d'un LLM lors de l'échantillonnage du token suivant. Les valeurs basses orientent vers les tokens les plus probables pour une sortie cohérente et prévisible ; les valeurs élevées permettent d'échantillonner des tokens moins probables, produisant des réponses plus créatives et variées. La plupart des API acceptent des valeurs de 0 à 2.

Pourquoi c'est important

Le même prompt à une température de 0,2 et de 1,0 produit un ton, une longueur et une créativité totalement différents. Pour les brouillons de blog générés par IA, une température trop basse donne une prose mécanique et prévisible ; trop élevée fait grimper les erreurs factuelles et les hallucinations. Régler la température de façon intentionnelle aux côtés du prompt engineering est la condition préalable à une qualité de contenu IA stable.

Comportement par plage

Température	Caractéristique	Tâches adaptées
0,0 à 0,2	Déterministe, reproductible	Classification, extraction, code, QA factuel
0,3 à 0,5	Cohérent avec une légère variation	Résumé, traduction, réponses structurées
0,6 à 0,8	Créativité naturelle	Brouillons de blog, e-mails, rédaction marketing
0,9 à 1,2	Diversifié, créatif	Idéation, brainstorming
1,3+	Bruité, plus d'hallucinations	Rarement utilisé en production

Température vs Top-p

Un autre paramètre d'échantillonnage courant est le top-p (échantillonnage par noyau), qui ne considère que les tokens dont la probabilité cumulée atteint p.

La température remodèle toute la distribution de probabilité.
Le top-p limite la taille du pool de candidats.
Ne réglez pas les deux : OpenAI et Anthropic recommandent tous deux de n'en ajuster qu'un seul. Régler les deux rend le comportement imprévisible.

Valeurs recommandées par tâche

Articles factuels (tutoriels, guides) : 0,2 à 0,4. L'exactitude d'abord, créativité minimale.

Brouillons de blog (essais, analyses) : 0,6 à 0,7. Des phrases naturelles avec une voix cohérente.

Idéation (variantes de titres, options de rédaction) : 0,9 à 1,0. La diversité est le but.

Résumé et traduction : 0,0 à 0,3. La reproductibilité compte.

FAQ et définitions : 0,0 à 0,2. La même question doit obtenir la même réponse.

Mises en garde

Corrélation avec l'hallucination : une température plus élevée signifie que le modèle échantillonne davantage de tokens en dehors de la distribution principale d'entraînement, augmentant les taux d'erreur factuelle. Pour les tâches sensibles aux hallucinations, baissez toujours la température.

Reproductibilité : une température de 0 n'est pas parfaitement déterministe. Fixez aussi le paramètre seed si vous avez besoin de sorties identiques.

Valeurs par défaut : les valeurs par défaut diffèrent selon l'API (OpenAI 1,0, Anthropic 1,0, Google ~1,0). Appeler sans en définir une donne une sortie plus créative que ce à quoi vous pourriez vous attendre.

Sources :