Speculative Decoding
Was ist Speculative Decoding?
Autoregressive Large Language Models (LLMs) generieren Text Token für Token — jedes neue Wort hängt vom vorherigen ab. Das ist konzeptionell sauber, aber praktisch ein Flaschenhals: Das Modell kann nicht parallel arbeiten, weil es immer auf das Ergebnis des letzten Schritts warten muss. Genau dieses Problem löst Speculative Decoding. Statt das große Target-Modell jeden einzelnen Token sequenziell erzeugen zu lassen, übernimmt ein deutlich kleineres und schnelleres Draft-Modell — oft 1/10 bis 1/50 der Parametergröße des Targets — die Vorarbeit: Es spekuliert mehrere Token auf einmal. Das Target-Modell bekommt diesen spekulativen Entwurf dann als Block zur Verifikation vorgelegt und kann alle Vorschläge in einem einzigen Forward-Pass prüfen. Akzeptierte Token werden übernommen, beim ersten abgelehnten Token greift das Target-Modell korrigierend ein. Das Ergebnis ist mathematisch identisch mit dem, was das Target-Modell allein erzeugt hätte — nur schneller.
Wie funktioniert Speculative Decoding?
Der Kern des Verfahrens liegt in der Parallelisierung der Verifikation. Das Draft-Modell erzeugt in einem Schritt einen Entwurfs-Chunk von typischerweise 5 bis 8 Token. Das Target-Modell berechnet daraufhin für alle diese Positionen gleichzeitig die Wahrscheinlichkeitsverteilungen — ein einzelner Forward-Pass, statt fünf bis acht separater. Die Akzeptanzregel stellt sicher, dass die Ausgabeverteilung exakt der des Target-Modells entspricht: Tokens, deren Draft-Wahrscheinlichkeit kleiner oder gleich der Target-Wahrscheinlichkeit ist, werden übernommen; bei Abweichungen wird mit einer korrigierten Sampling-Verteilung neu gezogen. Entscheidend für die Effizienz ist die Akzeptanzrate des Draft-Modells — also wie oft seine Vorhersagen mit dem Target übereinstimmen. Moderne Algorithmen wie EAGLE-3 maximieren diese Rate durch Feature-Level-Extrapolation: Das Draft-Modell nutzt nicht nur den letzten Hidden State des Target-Modells, sondern Embeddings aus mehreren Schichten, um den Kontext präziser zu erfassen. Noch weiter geht Multi-Token Prediction (MTP), bei dem native MTP-Heads direkt ins Target-Modell integriert sind — wie es DeepSeek R1 mit seinem offiziellen MTP-Head in Kombination mit EAGLE-Style-Decoding zeigt, das im MLPerf-Inference-Benchmark standardisiert wurde.
Speculative Decoding in der Praxis
Drei reale Einsatzfelder zeigen, wo die Technik heute konkret landet. Erstens: GitHub Copilot nutzt destillierte Draft-Modelle für Code-Vervollständigungen und erreicht laut Microsoft eine Latenzreduktion von 50 % — besonders stark bei typisierten Funktionen mit vorhersehbaren Token-Mustern, schwächer bei freiem Refactoring-Code. Zweitens: Microsoft Phi Silica auf Copilot+ PCs setzt Speculative Decoding für On-Device-Textgenerierung ein, wo der reduzierte Energieverbrauch durch weniger Target-Modell-Aufrufe direkt in längere Akkulaufzeit übersetzt werden kann. Drittens: Im MLPerf Inference v6.0-Benchmark ist SD im DeepSeek-R1-Interaktionsszenario erstmals offiziell standardisiert — ein Signal, dass die Industrie die Technik nicht mehr als Experiment, sondern als Produktionsstandard behandelt.
Vorteile und Grenzen
Der zentrale Vorteil ist eindeutig: 2x bis 4x Speedup ohne jede Änderung an der Ausgabequalität — das Target-Modell bleibt die einzige Wahrheitsquelle. Außerdem skaliert der Ansatz gut mit Hardware-Entwicklungen, da er bestehende Batch-Parallelisierung auf GPU-Ebene nutzt. Die Grenzen sind aber real. Die Akzeptanzrate ist stark domänenabhängig: Bei Codierung und Mathematik — niedrig-entropische Bereiche mit vorhersehbaren Token-Sequenzen — funktioniert das Verfahren hervorragend. Bei kreativem Schreiben oder Rollenspielen, wo das Draft-Modell die Vielfalt des Target-Modells kaum abbilden kann, kollabiert der Speedup. Der SPEED-Bench zeigt zudem, dass zufällige Token in Testsets Throughput-Messungen um bis zu 23 % überschätzen können — ein methodisches Problem, das viele bisherige Benchmarks unehrlich gemacht hat. Und bei großen Batch-Sizes, wie sie im Server-Betrieb mit vielen parallelen Anfragen entstehen, kann N-Gram-basierte Spekulation den Durchsatz sogar verschlechtern, weil die Draft-Overhead-Kosten die Gewinne übersteigen.