Temperature
Was ist Temperature?
Temperature ist ein Hyperparameter in generativen KI-Modellen — insbesondere Large Language Models (LLMs) — der steuert, wie stark das Modell bei der Token-Auswahl von der wahrscheinlichsten Antwort abweicht. Der Wertebereich liegt typischerweise zwischen 0 (vollständig deterministisch) und 1 (hoch probabilistisch). Bei einem Wert von 0 gibt das Modell bei gleicher Eingabe stets dieselbe Antwort zurück; bei einem Wert nahe 1 variieren die Outputs deutlich — selbst bei identischem Prompt. Das Konzept hängt eng mit verwandten Parametern wie Top-P (Nucleus Sampling) und Top-K zusammen, die ebenfalls die Ausgabeverteilung beeinflussen.
Wie funktioniert Temperature?
Technisch gesehen greift Temperature direkt in die Softmax-Funktion ein, die das Modell zur Berechnung der Token-Wahrscheinlichkeiten nutzt. Vor der Softmax-Transformation werden die sogenannten Logits — die rohen, unnormierten Vorhersagewerte für jedes mögliche nächste Token — durch den Temperature-Wert dividiert. Ein niedriger Wert (z. B. 0,2) schärft die Verteilung: Die wahrscheinlichsten Token erhalten überproportional mehr Gewicht, unwahrscheinliche werden faktisch ausgeschlossen. Ein hoher Wert (z. B. 0,9) flacht die Verteilung ab — das Modell zieht auch weniger wahrscheinliche Token ernsthaft in Betracht. Das Ergebnis ist eine probabilistische Streuung, die selbst bei identischer Temperature-Einstellung zu leicht unterschiedlichen Outputs führen kann, da das Sampling inhärent stochastisch ist.
Temperature in der Praxis
Der Einsatz von Temperature folgt einer klaren Logik: Aufgabe definiert Wert. Microsoft Copilot Studio bietet einen expliziten Temperature-Slider in der Modellkonfiguration — Business-Nutzer stellen ihn auf 0, wenn Copilot Vertragsklauseln analysieren oder SQL-Abfragen generieren soll, wo Konsistenz und Korrektheit zählen. Für Content-Generierung — etwa Brainstorming, Slogan-Entwicklung oder kreative Briefings — werden Werte zwischen 0,7 und 1 bevorzugt, da hier Vielfalt und unerwartete Kombinationen erwünscht sind. Ein weiteres reales Anwendungsfeld ist das Prompt-Engineering für Evaluierungs-Pipelines: Wer LLM-Outputs automatisiert bewertet oder A/B-Tests mit KI-generierten Textvarianten durchführt, schraubt die Temperature gezielt hoch, um eine breite Ausgabeverteilung für den Vergleich zu erhalten.
Vorteile und Grenzen
Temperature ist ein präzises Steuerungsinstrument mit klarem Hebel: Du kannst das Verhalten eines Modells ohne Finetuning oder Prompt-Umstrukturierung signifikant verschieben — das spart Zeit und Kosten. Die Schwäche liegt in der Interaktion mit anderen Parametern: Temperature allein erklärt das Ausgabeverhalten nicht vollständig, da Top-P und Top-K parallel wirken und sich gegenseitig beeinflussen. Eine weitere Grenze ist die Modellabhängigkeit: Nicht jedes Modell unterstützt den Parameter, und die Auswirkung eines identischen Werts kann je nach Modellarchitektur und Trainingsdaten spürbar variieren. Außerdem löst Temperature kein Halluzinationsproblem — ein Wert von 0 macht Outputs konsistent, aber nicht zwingend korrekt. Wer präzise Faktentreue braucht, kommt um Retrieval-Augmented Generation (RAG) oder externes Grounding nicht herum.