Distillation — PromptLoop Glossar

Was ist Distillation?

Knowledge Distillation ist eine Methode zur Modellkomprimierung im Machine Learning. Das Grundprinzip: Ein großes, rechenintensives Lehrermodell (Teacher) gibt seine Vorhersagen – inklusive der Wahrscheinlichkeitsverteilungen über alle möglichen Ausgaben, sogenannte Soft Labels – an ein deutlich kleineres Studentenmodell (Student) weiter. Der Student lernt nicht nur die richtigen Antworten, sondern auch die Struktur und Gewichtung der Unsicherheiten des Lehrers. Das macht Distillation fundamentally anders als bloßes Retraining auf komprimierten Daten. Verwandte Konzepte sind Pruning, Quantisierung und Transfer Learning – allesamt Strategien, um Modelle schlanker zu machen, ohne die Kernkompetenz zu opfern. Im Unterschied zur Destillation im chemischen Sinne geht es hier nicht um Trennung, sondern um Wissenstransfer.

Wie funktioniert Distillation?

Der klassische Distillationsprozess nach Geoffrey Hinton (2015) nutzt eine sogenannte Temperatur-Skalierung der Softmax-Ausgabe des Lehrermodells. Hohe Temperaturwerte glätten die Wahrscheinlichkeitsverteilung – das Modell zeigt dadurch, wie es über alternative Klassen oder Tokens "denkt", nicht nur, welche es bevorzugt. Dieses reichhaltigere Signal trainiert den Studenten effizienter als reine Hard Labels. Im LLM-Kontext hat sich die Technik weiterentwickelt: Moderne Distillation überträgt nicht nur Klassifikationsfähigkeiten, sondern vollständige Reasoning-Traces, Instruction-Following-Patterns und Chain-of-Thought-Prozesse. Ein Paradebeispiel sind die destillierten Varianten von DeepSeek R1 (8B bis 32B Parameter), die komplexes Schlussfolgern auf handelsüblicher Hardware via Ollama oder LM Studio ermöglichen. Eine besondere Variante ist die Self-Distillation, bei der ein Modell gleichzeitig als Lehrer und Schüler fungiert – etwa zur Verbesserung von Gedächtnisstabilität und Kompositionalität, ohne ein externes Lehrermodell zu benötigen.

Distillation in der Praxis

Drei konkrete Einsatzszenarien dominieren derzeit den Markt: Erstens der Edge-Deployment – Unternehmen wie Google Cloud bieten legitime Distillation-Services an, mit denen große Basismodelle auf embedded Hardware oder in datenschutzkritischen On-Premise-Umgebungen lauffähig gemacht werden. Zweitens die Domänenspezialisierung: Ein Lehrermodell, das auf Millionen medizinischen Texten vortrainiert ist, gibt sein Spezialwissen an einen schlanken Studenten weiter – dieser inferiert dann lokal in der Klinik, ohne Cloud-Anbindung. Drittens – und das ist die kontroverse Seite – Distillation Attacks: Akteure wie MiniMax sollen laut Recherchen über 13 Millionen Interaktionen mit fremden Frontier-Modellen gesammelt haben, um diese Daten als Trainingssignal für eigene Modelle zu verwenden. OpenAI berichtet von systematischen Versuchen, ganze Trainings-Pipelines zu rekonstruieren. Die Effektivität solcher Angriffe bleibt wissenschaftlich umstritten – unkontrollierte Interaktionsdaten enthalten viel Rauschen.

Vorteile und Grenzen

Die Stärken von Knowledge Distillation sind handfest: drastisch reduzierte Inferenzkosten, geringerer Energieverbrauch, Offline-Fähigkeit und die Möglichkeit, Modelle datenschutzkonform auf lokaler Hardware zu betreiben. Für KMUs und Developer, die keine Hyperscaler-Budgets haben, ist Distillation oft der einzige Weg zu leistungsfähigen KI-Features. Die Grenzen sind aber ebenso real: Der Student kann den Lehrer nie vollständig replizieren – insbesondere bei emergenten Fähigkeiten, die erst ab einer kritischen Modellgröße auftreten, gibt es eine harte Grenze. Außerdem wächst der Forschungsdruck auf Distillation Resistance: Frameworks mit sogenannten Constraint-Coupled Architectures sollen Capability-Transfer erschweren, indem sie Modellstärken an interne Stabilitätsbeschränkungen koppeln. Die ethische Dimension – wem gehört destilliertes Wissen? – ist rechtlich weitgehend ungeklärt und wird die KI-Industrie noch jahrelang beschäftigen.

❓ Häufig gestellte Fragen

▶ Was ist der Unterschied zwischen Distillation und Quantisierung?

Beide Methoden machen Modelle effizienter, aber auf unterschiedlichen Wegen. Quantisierung reduziert die numerische Präzision der Gewichte (z. B. von 32-Bit auf 4-Bit Float), ohne die Architektur zu verändern. Distillation hingegen trainiert ein komplett neues, kleineres Modell, das das Wissen eines größeren Lehrermodells approximiert. Oft werden beide Techniken kombiniert: Erst destillieren, dann quantisieren.

▶ Wie legal sind Distillation Attacks auf kommerzielle Modelle?

Das ist rechtlich weitgehend ungeklärt. Die Nutzungsbedingungen von Anbietern wie OpenAI oder Anthropic verbieten explizit das Sammeln von Outputs zum Training konkurrierender Modelle. Ob das vertragsrechtlich oder urheberrechtlich durchsetzbar ist, variiert je nach Jurisdiktion. Laufende Verfahren und Lobbying-Aktivitäten in der EU und den USA deuten darauf hin, dass gesetzliche Regelungen in den nächsten Jahren folgen werden.

▶ Welche Fähigkeiten gehen beim Destillieren verloren?

Vor allem sogenannte emergente Fähigkeiten, die erst ab einer kritischen Parameteranzahl im Lehrermodell auftreten, lassen sich nur unvollständig übertragen. Komplexes mehrstufiges Reasoning, seltene Sprachkenntnisse und kontextuelles Langzeitgedächtnis degradieren beim Studenten spürbar. Grundlegende Aufgaben wie Klassifikation, Zusammenfassung oder einfache Instruktionsbefolgung übersteht der Distillationsprozess hingegen meist mit geringen Qualitätsverlusten.

Stand: 20. März 2026