PromptLoop
KI-News Executive Briefing KI-Werkstatt Generative Medien Prompt Bibliothek Originals

Temperature

Was ist Temperature?

Temperature ist ein Hyperparameter in generativen KI-Modellen — insbesondere Large Language Models (LLMs) — der steuert, wie stark das Modell bei der Token-Auswahl von der wahrscheinlichsten Antwort abweicht. Der Wertebereich liegt typischerweise zwischen 0 (vollständig deterministisch) und 1 (hoch probabilistisch). Bei einem Wert von 0 gibt das Modell bei gleicher Eingabe stets dieselbe Antwort zurück; bei einem Wert nahe 1 variieren die Outputs deutlich — selbst bei identischem Prompt. Das Konzept hängt eng mit verwandten Parametern wie Top-P (Nucleus Sampling) und Top-K zusammen, die ebenfalls die Ausgabeverteilung beeinflussen.

Wie funktioniert Temperature?

Technisch gesehen greift Temperature direkt in die Softmax-Funktion ein, die das Modell zur Berechnung der Token-Wahrscheinlichkeiten nutzt. Vor der Softmax-Transformation werden die sogenannten Logits — die rohen, unnormierten Vorhersagewerte für jedes mögliche nächste Token — durch den Temperature-Wert dividiert. Ein niedriger Wert (z. B. 0,2) schärft die Verteilung: Die wahrscheinlichsten Token erhalten überproportional mehr Gewicht, unwahrscheinliche werden faktisch ausgeschlossen. Ein hoher Wert (z. B. 0,9) flacht die Verteilung ab — das Modell zieht auch weniger wahrscheinliche Token ernsthaft in Betracht. Das Ergebnis ist eine probabilistische Streuung, die selbst bei identischer Temperature-Einstellung zu leicht unterschiedlichen Outputs führen kann, da das Sampling inhärent stochastisch ist.

Temperature in der Praxis

Der Einsatz von Temperature folgt einer klaren Logik: Aufgabe definiert Wert. Microsoft Copilot Studio bietet einen expliziten Temperature-Slider in der Modellkonfiguration — Business-Nutzer stellen ihn auf 0, wenn Copilot Vertragsklauseln analysieren oder SQL-Abfragen generieren soll, wo Konsistenz und Korrektheit zählen. Für Content-Generierung — etwa Brainstorming, Slogan-Entwicklung oder kreative Briefings — werden Werte zwischen 0,7 und 1 bevorzugt, da hier Vielfalt und unerwartete Kombinationen erwünscht sind. Ein weiteres reales Anwendungsfeld ist das Prompt-Engineering für Evaluierungs-Pipelines: Wer LLM-Outputs automatisiert bewertet oder A/B-Tests mit KI-generierten Textvarianten durchführt, schraubt die Temperature gezielt hoch, um eine breite Ausgabeverteilung für den Vergleich zu erhalten.

Vorteile und Grenzen

Temperature ist ein präzises Steuerungsinstrument mit klarem Hebel: Du kannst das Verhalten eines Modells ohne Finetuning oder Prompt-Umstrukturierung signifikant verschieben — das spart Zeit und Kosten. Die Schwäche liegt in der Interaktion mit anderen Parametern: Temperature allein erklärt das Ausgabeverhalten nicht vollständig, da Top-P und Top-K parallel wirken und sich gegenseitig beeinflussen. Eine weitere Grenze ist die Modellabhängigkeit: Nicht jedes Modell unterstützt den Parameter, und die Auswirkung eines identischen Werts kann je nach Modellarchitektur und Trainingsdaten spürbar variieren. Außerdem löst Temperature kein Halluzinationsproblem — ein Wert von 0 macht Outputs konsistent, aber nicht zwingend korrekt. Wer präzise Faktentreue braucht, kommt um Retrieval-Augmented Generation (RAG) oder externes Grounding nicht herum.

❓ Häufig gestellte Fragen

Was bewirkt ein Temperature-Wert von 0 bei einem LLM?
Bei Temperature 0 wählt das Modell stets das Token mit der höchsten Wahrscheinlichkeit – die Ausgabe ist deterministisch und bei gleicher Eingabe reproduzierbar. Das eignet sich für Aufgaben, bei denen Konsistenz und Präzision Vorrang haben, etwa Code-Generierung oder Datenextraktion.
Was ist der Unterschied zwischen Temperature und Top-P?
Beide Parameter steuern die Token-Auswahl, setzen aber unterschiedlich an: Temperature skaliert die gesamte Wahrscheinlichkeitsverteilung über alle Token. Top-P (Nucleus Sampling) begrenzt die Auswahl auf die kleinste Menge von Token, deren kumulierte Wahrscheinlichkeit einen definierten Schwellenwert erreicht. In der Praxis werden beide oft kombiniert eingesetzt.
Sollte ich Temperature oder Top-P für kreative Aufgaben bevorzugen?
Für kreative Aufgaben empfiehlt sich in der Regel eine erhöhte Temperature (0,7–1,0), da sie die gesamte Verteilung gleichmäßig beeinflusst. Top-P ist eher sinnvoll, wenn du die Ausgabe auf einen realistischen Wahrscheinlichkeitsbereich begrenzen willst, ohne Extremwerte zu riskieren. Viele Praktiker nutzen beide Parameter kombiniert und justieren iterativ anhand der tatsächlichen Outputs.
📬 KI-News direkt ins Postfach