Speculative Decoding — PromptLoop Glossar

Was ist Speculative Decoding?

Autoregressive Large Language Models (LLMs) generieren Text Token für Token — jedes neue Wort hängt vom vorherigen ab. Das ist konzeptionell sauber, aber praktisch ein Flaschenhals: Das Modell kann nicht parallel arbeiten, weil es immer auf das Ergebnis des letzten Schritts warten muss. Genau dieses Problem löst Speculative Decoding. Statt das große Target-Modell jeden einzelnen Token sequenziell erzeugen zu lassen, übernimmt ein deutlich kleineres und schnelleres Draft-Modell — oft 1/10 bis 1/50 der Parametergröße des Targets — die Vorarbeit: Es spekuliert mehrere Token auf einmal. Das Target-Modell bekommt diesen spekulativen Entwurf dann als Block zur Verifikation vorgelegt und kann alle Vorschläge in einem einzigen Forward-Pass prüfen. Akzeptierte Token werden übernommen, beim ersten abgelehnten Token greift das Target-Modell korrigierend ein. Das Ergebnis ist mathematisch identisch mit dem, was das Target-Modell allein erzeugt hätte — nur schneller.

Wie funktioniert Speculative Decoding?

Der Kern des Verfahrens liegt in der Parallelisierung der Verifikation. Das Draft-Modell erzeugt in einem Schritt einen Entwurfs-Chunk von typischerweise 5 bis 8 Token. Das Target-Modell berechnet daraufhin für alle diese Positionen gleichzeitig die Wahrscheinlichkeitsverteilungen — ein einzelner Forward-Pass, statt fünf bis acht separater. Die Akzeptanzregel stellt sicher, dass die Ausgabeverteilung exakt der des Target-Modells entspricht: Tokens, deren Draft-Wahrscheinlichkeit kleiner oder gleich der Target-Wahrscheinlichkeit ist, werden übernommen; bei Abweichungen wird mit einer korrigierten Sampling-Verteilung neu gezogen. Entscheidend für die Effizienz ist die Akzeptanzrate des Draft-Modells — also wie oft seine Vorhersagen mit dem Target übereinstimmen. Moderne Algorithmen wie EAGLE-3 maximieren diese Rate durch Feature-Level-Extrapolation: Das Draft-Modell nutzt nicht nur den letzten Hidden State des Target-Modells, sondern Embeddings aus mehreren Schichten, um den Kontext präziser zu erfassen. Noch weiter geht Multi-Token Prediction (MTP), bei dem native MTP-Heads direkt ins Target-Modell integriert sind — wie es DeepSeek R1 mit seinem offiziellen MTP-Head in Kombination mit EAGLE-Style-Decoding zeigt, das im MLPerf-Inference-Benchmark standardisiert wurde.

Speculative Decoding in der Praxis

Drei reale Einsatzfelder zeigen, wo die Technik heute konkret landet. Erstens: GitHub Copilot nutzt destillierte Draft-Modelle für Code-Vervollständigungen und erreicht laut Microsoft eine Latenzreduktion von 50 % — besonders stark bei typisierten Funktionen mit vorhersehbaren Token-Mustern, schwächer bei freiem Refactoring-Code. Zweitens: Microsoft Phi Silica auf Copilot+ PCs setzt Speculative Decoding für On-Device-Textgenerierung ein, wo der reduzierte Energieverbrauch durch weniger Target-Modell-Aufrufe direkt in längere Akkulaufzeit übersetzt werden kann. Drittens: Im MLPerf Inference v6.0-Benchmark ist SD im DeepSeek-R1-Interaktionsszenario erstmals offiziell standardisiert — ein Signal, dass die Industrie die Technik nicht mehr als Experiment, sondern als Produktionsstandard behandelt.

Vorteile und Grenzen

Der zentrale Vorteil ist eindeutig: 2x bis 4x Speedup ohne jede Änderung an der Ausgabequalität — das Target-Modell bleibt die einzige Wahrheitsquelle. Außerdem skaliert der Ansatz gut mit Hardware-Entwicklungen, da er bestehende Batch-Parallelisierung auf GPU-Ebene nutzt. Die Grenzen sind aber real. Die Akzeptanzrate ist stark domänenabhängig: Bei Codierung und Mathematik — niedrig-entropische Bereiche mit vorhersehbaren Token-Sequenzen — funktioniert das Verfahren hervorragend. Bei kreativem Schreiben oder Rollenspielen, wo das Draft-Modell die Vielfalt des Target-Modells kaum abbilden kann, kollabiert der Speedup. Der SPEED-Bench zeigt zudem, dass zufällige Token in Testsets Throughput-Messungen um bis zu 23 % überschätzen können — ein methodisches Problem, das viele bisherige Benchmarks unehrlich gemacht hat. Und bei großen Batch-Sizes, wie sie im Server-Betrieb mit vielen parallelen Anfragen entstehen, kann N-Gram-basierte Spekulation den Durchsatz sogar verschlechtern, weil die Draft-Overhead-Kosten die Gewinne übersteigen.

❓ Häufig gestellte Fragen

▶ Verändert Speculative Decoding die Ausgabe eines LLM?

Nein. Die mathematische Garantie des Verfahrens stellt sicher, dass die Ausgabeverteilung exakt identisch mit der des Target-Modells ohne Speculative Decoding ist. Das Draft-Modell beschleunigt nur den Prozess, beeinflusst aber nicht die finale Qualität oder Verteilung der generierten Token.

▶ Welche Modellgröße braucht das Draft-Modell?

Das Draft-Modell sollte typischerweise 1/10 bis 1/50 der Parametergröße des Target-Modells haben. Es muss schnell genug sein, damit der Verifikationsschritt des Target-Modells den Gesamtaufwand dominiert. Entscheidender als die Größe ist die Akzeptanzrate: Ein kleines Draft-Modell mit hoher thematischer Übereinstimmung zum Target schlägt ein größeres mit schlechter Ausrichtung.

▶ Wann lohnt sich Speculative Decoding nicht?

Bei sehr großen Batches mit vielen parallelen Nutzeranfragen kann der Overhead der Draft-Modell-Schritte den Speedup zunichtemachen. Auch bei hochgradig kreativem oder entropiereichem Text — etwa freiem Schreiben oder Rollenspielen — sinkt die Akzeptanzrate des Draft-Modells so stark, dass der Effizienzvorteil gegen null geht. Hier sind alternative Beschleunigungsverfahren wie Quantisierung oft effektiver.

Stand: 28. März 2026