Gemma 4 MTP: Google beschleunigt lokale…

Google hat Multi-Token Prediction (MTP) Drafters für seine Gemma-4-Modellfamilie veröffentlicht und verspricht damit eine Inferenzbeschleunigung von bis zu dreimal — ohne Abstriche bei der Ausgabequalität. Die experimentellen Modelle nutzen eine Form von Speculative Decoding und sind ab sofort unter der Apache-2.0-Lizenz verfügbar. Für alle, die lokale KI auf Consumer-Hardware betreiben, ist das eine direkt verwertbare Verbesserung.

Standard-LLMs wie Gemma generieren Token autoregressiv — eines nach dem anderen, jedes mit dem gleichen Rechenaufwand. Das ist ineffizient, weil die Hardware in der Zeit, in der Parameter vom VRAM in die Recheneinheiten verschoben werden, weitgehend brach liegt. Genau diese Lücke füllt MTP: Ein schlankes Draft-Modell — beim E2B-Modell gerade einmal 74 Millionen Parameter — nutzt diese Wartezeit, um spekulative Token vorauszugenerieren.

Der Trick dabei: Der Drafter teilt sich den Key-Value-Cache mit dem Hauptmodell und muss den bisherigen Kontext nicht neu berechnen. Die E2B- und E4B-Drafter verwenden zusätzlich eine sparse Decoding-Technik, die den Suchraum möglicher nächster Token einschränkt. Das Hauptmodell verifiziert die spekulativen Token anschließend parallel — stimmt die Sequenz, wird sie in einem einzigen Forward Pass akzeptiert. Gleichzeitig generiert das Hauptmodell einen weiteren Token normal. Im Ergebnis entstehen mehrere Token in der Zeit, die früher für einen einzigen benötigt wurde.

Google hat die MTP-Beschleunigung auf verschiedenen Hardware-Konfigurationen gemessen. Auf Pixel-Smartphones laufen die kleineren E2B- und E4B-Modelle 2,8- beziehungsweise 3,1-mal schneller. Das Gemma 4 31B Dense auf Apples M4-Silicon erzielt einen 2,5-fachen Speedup. Auf einer NVIDIA RTX PRO 6000 halbiert sich die Wartezeit bei Gemma 4 26B laut Googles Angaben bei gleicher Ausgabequalität. Google selbst spricht von "zero quality degradation" — die Fehlerquote generativer KI-Systeme steigt durch MTP nicht an, weil das Hauptmodell alle Draft-Token verifiziert.

Das ist für den Praxiseinsatz relevant: Wer bisher am Limit seiner Consumer-GPU oder seines Mobilgeräts operiert hat, gewinnt durch MTP echten Spielraum — sei es für längere Kontexte, schnellere Antwortzeiten oder schlicht weniger Akkuverbrauch auf dem Smartphone.

Die MTP Drafters sind sofort nutzbar und stehen unter der gleichen Apache-2.0-Lizenz wie die Gemma-4-Kernmodelle — ein Unterschied zur früheren, restriktiveren Gemma-Lizenz. Die beschleunigten Modelle laufen in den gängigen Inference-Frameworks: MLX, VLLM, SGLang und Ollama unterstützen die neuen Drafter bereits. Die Developer-Dokumentation ist auf ai.google.dev verfügbar. Für Android-Entwickler ist Gemma 4 zusätzlich in der AICore-Entwicklervorschau zugänglich.

Der EU AI Act greift hier auf der Ebene der GPAI-Regeln: Seit August 2025 gelten für General-Purpose-AI-Modelle mit offenen Gewichten die neuen Governance-Anforderungen. Die Apache-2.0-Lizenzierung von Gemma 4 erhöht die Transparenzpflichten für gewerbliche Nutzer im DACH-Raum, bietet ihnen aber gleichzeitig mehr Kontrolle über die Datenverarbeitung — ein klarer Vorteil gegenüber Cloud-basierten Alternativen mit Drittlandtransfer-Problematik unter DSGVO Art. 35.

Mit MTP zieht Google eine klare Trennlinie zu Cloud-Only-Angeboten. Wer lokale Inferenz bisher wegen zu langsamer Ausgabe gemieden hat, bekommt jetzt einen konkreten Grund zum Umstieg. Meta Llama und Mistral bieten vergleichbare Optimierungen nicht out-of-the-box in dieser Form — das ist ein taktischer Vorteil für Google im Open-Weight-Segment. Für DACH-Unternehmen, die auf datenschutzkonforme On-Premise-KI setzen wollen, wird das Argument für Gemma 4 damit deutlich stärker.

📚 Quellen

📰 Recherchiert auf Basis von 6 Primärquellen (arstechnica.com, therift.ai, blog.google, …)

ℹ️ Wie wir prüfen →

📚 Quellen

Das könnte dich auch interessieren

Project Suncatcher: Google testet KI-Rechenzentren im Orbit gegen den Stromhunger

Immense Engine: Guerrilla-Mitgründer baut europäische Alternative zur Unreal Engine

Google-Rechenzentren UK: CO2-Emissionen um Faktor fünf zu niedrig angegeben