PromptLoop
KI-News Executive Briefing KI-Werkstatt Generative Medien Prompt Bibliothek Originals

Speculative Decoding

Was ist Speculative Decoding?

Autoregressive Large Language Models (LLMs) generieren Text Token für Token — jedes neue Wort hängt vom vorherigen ab. Das ist konzeptionell sauber, aber praktisch ein Flaschenhals: Das Modell kann nicht parallel arbeiten, weil es immer auf das Ergebnis des letzten Schritts warten muss. Genau dieses Problem löst Speculative Decoding. Statt das große Target-Modell jeden einzelnen Token sequenziell erzeugen zu lassen, übernimmt ein deutlich kleineres und schnelleres Draft-Modell — oft 1/10 bis 1/50 der Parametergröße des Targets — die Vorarbeit: Es spekuliert mehrere Token auf einmal. Das Target-Modell bekommt diesen spekulativen Entwurf dann als Block zur Verifikation vorgelegt und kann alle Vorschläge in einem einzigen Forward-Pass prüfen. Akzeptierte Token werden übernommen, beim ersten abgelehnten Token greift das Target-Modell korrigierend ein. Das Ergebnis ist mathematisch identisch mit dem, was das Target-Modell allein erzeugt hätte — nur schneller.

Wie funktioniert Speculative Decoding?

Der Kern des Verfahrens liegt in der Parallelisierung der Verifikation. Das Draft-Modell erzeugt in einem Schritt einen Entwurfs-Chunk von typischerweise 5 bis 8 Token. Das Target-Modell berechnet daraufhin für alle diese Positionen gleichzeitig die Wahrscheinlichkeitsverteilungen — ein einzelner Forward-Pass, statt fünf bis acht separater. Die Akzeptanzregel stellt sicher, dass die Ausgabeverteilung exakt der des Target-Modells entspricht: Tokens, deren Draft-Wahrscheinlichkeit kleiner oder gleich der Target-Wahrscheinlichkeit ist, werden übernommen; bei Abweichungen wird mit einer korrigierten Sampling-Verteilung neu gezogen. Entscheidend für die Effizienz ist die Akzeptanzrate des Draft-Modells — also wie oft seine Vorhersagen mit dem Target übereinstimmen. Moderne Algorithmen wie EAGLE-3 maximieren diese Rate durch Feature-Level-Extrapolation: Das Draft-Modell nutzt nicht nur den letzten Hidden State des Target-Modells, sondern Embeddings aus mehreren Schichten, um den Kontext präziser zu erfassen. Noch weiter geht Multi-Token Prediction (MTP), bei dem native MTP-Heads direkt ins Target-Modell integriert sind — wie es DeepSeek R1 mit seinem offiziellen MTP-Head in Kombination mit EAGLE-Style-Decoding zeigt, das im MLPerf-Inference-Benchmark standardisiert wurde.

Speculative Decoding in der Praxis

Drei reale Einsatzfelder zeigen, wo die Technik heute konkret landet. Erstens: GitHub Copilot nutzt destillierte Draft-Modelle für Code-Vervollständigungen und erreicht laut Microsoft eine Latenzreduktion von 50 % — besonders stark bei typisierten Funktionen mit vorhersehbaren Token-Mustern, schwächer bei freiem Refactoring-Code. Zweitens: Microsoft Phi Silica auf Copilot+ PCs setzt Speculative Decoding für On-Device-Textgenerierung ein, wo der reduzierte Energieverbrauch durch weniger Target-Modell-Aufrufe direkt in längere Akkulaufzeit übersetzt werden kann. Drittens: Im MLPerf Inference v6.0-Benchmark ist SD im DeepSeek-R1-Interaktionsszenario erstmals offiziell standardisiert — ein Signal, dass die Industrie die Technik nicht mehr als Experiment, sondern als Produktionsstandard behandelt.

Vorteile und Grenzen

Der zentrale Vorteil ist eindeutig: 2x bis 4x Speedup ohne jede Änderung an der Ausgabequalität — das Target-Modell bleibt die einzige Wahrheitsquelle. Außerdem skaliert der Ansatz gut mit Hardware-Entwicklungen, da er bestehende Batch-Parallelisierung auf GPU-Ebene nutzt. Die Grenzen sind aber real. Die Akzeptanzrate ist stark domänenabhängig: Bei Codierung und Mathematik — niedrig-entropische Bereiche mit vorhersehbaren Token-Sequenzen — funktioniert das Verfahren hervorragend. Bei kreativem Schreiben oder Rollenspielen, wo das Draft-Modell die Vielfalt des Target-Modells kaum abbilden kann, kollabiert der Speedup. Der SPEED-Bench zeigt zudem, dass zufällige Token in Testsets Throughput-Messungen um bis zu 23 % überschätzen können — ein methodisches Problem, das viele bisherige Benchmarks unehrlich gemacht hat. Und bei großen Batch-Sizes, wie sie im Server-Betrieb mit vielen parallelen Anfragen entstehen, kann N-Gram-basierte Spekulation den Durchsatz sogar verschlechtern, weil die Draft-Overhead-Kosten die Gewinne übersteigen.

❓ Häufig gestellte Fragen

Verändert Speculative Decoding die Ausgabe eines LLM?
Nein. Die mathematische Garantie des Verfahrens stellt sicher, dass die Ausgabeverteilung exakt identisch mit der des Target-Modells ohne Speculative Decoding ist. Das Draft-Modell beschleunigt nur den Prozess, beeinflusst aber nicht die finale Qualität oder Verteilung der generierten Token.
Welche Modellgröße braucht das Draft-Modell?
Das Draft-Modell sollte typischerweise 1/10 bis 1/50 der Parametergröße des Target-Modells haben. Es muss schnell genug sein, damit der Verifikationsschritt des Target-Modells den Gesamtaufwand dominiert. Entscheidender als die Größe ist die Akzeptanzrate: Ein kleines Draft-Modell mit hoher thematischer Übereinstimmung zum Target schlägt ein größeres mit schlechter Ausrichtung.
Wann lohnt sich Speculative Decoding nicht?
Bei sehr großen Batches mit vielen parallelen Nutzeranfragen kann der Overhead der Draft-Modell-Schritte den Speedup zunichtemachen. Auch bei hochgradig kreativem oder entropiereichem Text — etwa freiem Schreiben oder Rollenspielen — sinkt die Akzeptanzrate des Draft-Modells so stark, dass der Effizienzvorteil gegen null geht. Hier sind alternative Beschleunigungsverfahren wie Quantisierung oft effektiver.
📬 KI-News direkt ins Postfach