Was ist Temperature bei LLMs? | GEO-Glossar

Temperature ist ein Parameter, der steuert, wie "scharf" die Wahrscheinlichkeitsverteilung eines LLM beim Auswählen des nächsten Tokens ist. Niedrige Werte tendieren zu den wahrscheinlichsten Tokens für konsistente, vorhersagbare Ausgaben; hohe Werte erlauben es, weniger wahrscheinliche Tokens auszuwählen, was kreativere und vielfältigere Antworten erzeugt. Die meisten APIs akzeptieren Werte von 0 bis 2.

Warum es wichtig ist

Derselbe Prompt erzeugt bei Temperature 0.2 und 1.0 völlig unterschiedlichen Ton, unterschiedliche Länge und Kreativität. Bei KI-generierten Blog-Entwürfen bedeutet zu niedrig mechanische und vorhersagbare Prosa; zu hoch bedeutet zunehmende Faktenfehler und Halluzinationen. Die Temperature bewusst zusammen mit Prompt Engineering zu setzen, ist die Voraussetzung für eine stabile Qualität von KI-Inhalten.

Verhalten nach Wertebereich

Temperature	Charakteristik	Geeignete Aufgaben
0.0 - 0.2	Deterministisch, reproduzierbar	Klassifizierung, Extraktion, Code, faktische QA
0.3 - 0.5	Konsistent mit leichter Variation	Zusammenfassung, Übersetzung, strukturierte Antworten
0.6 - 0.8	Natürliche Kreativität	Blog-Entwürfe, E-Mails, Marketingtexte
0.9 - 1.2	Vielfältig, kreativ	Ideenfindung, Brainstorming
1.3+	Verrauscht, mehr Halluzinationen	In der Produktion selten genutzt

Temperature vs Top-p

Ein weiterer gängiger Sampling-Parameter ist Top-p (Nucleus Sampling), das nur Tokens berücksichtigt, deren kumulierte Wahrscheinlichkeit p erreicht.

Temperature formt die gesamte Wahrscheinlichkeitsverteilung um.
Top-p begrenzt die Größe des Kandidatenpools.
Justieren Sie nicht beides: OpenAI und Anthropic empfehlen beide, nur eines anzupassen. Beides zu justieren, macht das Verhalten unvorhersehbar.

Empfohlene Werte nach Aufgabe

Faktenbasierte Beiträge (Tutorials, Leitfäden): 0.2 - 0.4. Genauigkeit zuerst, Kreativität minimal.

Blog-Entwürfe (Essays, Analysen): 0.6 - 0.7. Natürliche Sätze mit konsistenter Stimme.

Ideenfindung (Titelvarianten, Textoptionen): 0.9 - 1.0. Vielfalt ist der Sinn der Sache.

Zusammenfassung und Übersetzung: 0.0 - 0.3. Reproduzierbarkeit zählt.

FAQs und Definitionen: 0.0 - 0.2. Dieselbe Frage sollte dieselbe Antwort erhalten.

Hinweise

Korrelation mit Halluzination: Höhere Temperature bedeutet, dass das Modell mehr Tokens außerhalb der Haupt-Trainingsverteilung auswählt, was die Faktenfehlerrate erhöht. Senken Sie bei halluzinationsempfindlichen Aufgaben stets die Temperature.

Reproduzierbarkeit: Temperature 0 ist nicht perfekt deterministisch. Fixieren Sie zusätzlich den Parameter seed, wenn Sie identische Ausgaben benötigen.

Standardwerte: Die Standardwerte unterscheiden sich je nach API (OpenAI 1.0, Anthropic 1.0, Google etwa 1.0). Ein Aufruf ohne gesetzten Wert liefert kreativere Ausgaben, als Sie vielleicht erwarten.

Sources: