Temperature
Temperature ist ein Parameter, der steuert, wie "scharf" die Wahrscheinlichkeitsverteilung eines LLM beim Auswählen des nächsten Tokens ist. Niedrige Werte tendieren zu den wahrscheinlichsten Tokens für konsistente, vorhersagbare Ausgaben; hohe Werte erlauben es, weniger wahrscheinliche Tokens auszuwählen, was kreativere und vielfältigere Antworten erzeugt. Die meisten APIs akzeptieren Werte von 0 bis 2.
Temperature ist ein Parameter, der steuert, wie "scharf" die Wahrscheinlichkeitsverteilung eines LLM beim Auswählen des nächsten Tokens ist. Niedrige Werte tendieren zu den wahrscheinlichsten Tokens für konsistente, vorhersagbare Ausgaben; hohe Werte erlauben es, weniger wahrscheinliche Tokens auszuwählen, was kreativere und vielfältigere Antworten erzeugt. Die meisten APIs akzeptieren Werte von 0 bis 2.
Warum es wichtig ist
Derselbe Prompt erzeugt bei Temperature 0.2 und 1.0 völlig unterschiedlichen Ton, unterschiedliche Länge und Kreativität. Bei KI-generierten Blog-Entwürfen bedeutet zu niedrig mechanische und vorhersagbare Prosa; zu hoch bedeutet zunehmende Faktenfehler und Halluzinationen. Die Temperature bewusst zusammen mit Prompt Engineering zu setzen, ist die Voraussetzung für eine stabile Qualität von KI-Inhalten.
Verhalten nach Wertebereich
| Temperature | Charakteristik | Geeignete Aufgaben |
|---|---|---|
| 0.0 - 0.2 | Deterministisch, reproduzierbar | Klassifizierung, Extraktion, Code, faktische QA |
| 0.3 - 0.5 | Konsistent mit leichter Variation | Zusammenfassung, Übersetzung, strukturierte Antworten |
| 0.6 - 0.8 | Natürliche Kreativität | Blog-Entwürfe, E-Mails, Marketingtexte |
| 0.9 - 1.2 | Vielfältig, kreativ | Ideenfindung, Brainstorming |
| 1.3+ | Verrauscht, mehr Halluzinationen | In der Produktion selten genutzt |
Temperature vs Top-p
Ein weiterer gängiger Sampling-Parameter ist Top-p (Nucleus Sampling), das nur Tokens berücksichtigt, deren kumulierte Wahrscheinlichkeit p erreicht.
- Temperature formt die gesamte Wahrscheinlichkeitsverteilung um.
- Top-p begrenzt die Größe des Kandidatenpools.
- Justieren Sie nicht beides: OpenAI und Anthropic empfehlen beide, nur eines anzupassen. Beides zu justieren, macht das Verhalten unvorhersehbar.
Empfohlene Werte nach Aufgabe
Faktenbasierte Beiträge (Tutorials, Leitfäden): 0.2 - 0.4. Genauigkeit zuerst, Kreativität minimal.
Blog-Entwürfe (Essays, Analysen): 0.6 - 0.7. Natürliche Sätze mit konsistenter Stimme.
Ideenfindung (Titelvarianten, Textoptionen): 0.9 - 1.0. Vielfalt ist der Sinn der Sache.
Zusammenfassung und Übersetzung: 0.0 - 0.3. Reproduzierbarkeit zählt.
FAQs und Definitionen: 0.0 - 0.2. Dieselbe Frage sollte dieselbe Antwort erhalten.
Hinweise
Korrelation mit Halluzination: Höhere Temperature bedeutet, dass das Modell mehr Tokens außerhalb der Haupt-Trainingsverteilung auswählt, was die Faktenfehlerrate erhöht. Senken Sie bei halluzinationsempfindlichen Aufgaben stets die Temperature.
Reproduzierbarkeit: Temperature 0 ist nicht perfekt deterministisch. Fixieren Sie zusätzlich den Parameter seed, wenn Sie identische Ausgaben benötigen.
Standardwerte: Die Standardwerte unterscheiden sich je nach API (OpenAI 1.0, Anthropic 1.0, Google etwa 1.0). Ein Aufruf ohne gesetzten Wert liefert kreativere Ausgaben, als Sie vielleicht erwarten.
Sources: