Google DeepMind hat am 2. April 2026 Gemma 4 unter der Apache-2.0-Lizenz veröffentlicht, was das Modell für kommerzielle Nutzung und Anpassungen freigibt. Die Modellreihe umfasst vier Größen: Effective 2B (E2B), Effective 4B (E4B), ein 26B-Mixture-of-Experts-Modell sowie ein 31B-Dense-Modell. Letzteres belegt laut den veröffentlichten Benchmark-Daten den dritten Platz in der Arena-AI-Text-Bestenliste unter den offenen Modellen. Kleinere Varianten unterstützen ein Kontextfenster von 128.000 Tokens, die größeren Modelle (26B und 31B) bieten 256.000 Tokens.
- Google hat das Open-Source-Modell Gemma 4 unter der geschäftsfreundlichen Apache-2.0-Lizenz in vier verschiedenen Größen veröffentlicht.
- Die neue KI-Architektur ist für die lokale Verarbeitung auf Endgeräten optimiert und ermöglicht die Offline-Ausführung multimodaler KI-Agenten.
- Der vollständige Verzicht auf eine Cloud-Anbindung bietet Unternehmen erhebliche rechtliche Vorteile bei der Einhaltung von DSGVO und EU AI Act.
On-Device-Architektur und Agenten-Funktionen
Das zentrale Versprechen von Gemma 4 ist die On-Device-Inferenz auf Smartphones, Tablets und Laptops, die keine permanente Cloud-Anbindung erfordert. Architektonisch setzt die Reihe auf eine hybride Attention-Architektur mit lokaler Sliding-Window- und globaler Full-Context-Attention sowie Per-Layer Embeddings (PLE), die eine effiziente Inferenz auf verschiedenen Geräteklassen ermöglichen. Der integrierte Audio-Encoder der E2B- und E4B-Modelle basiert auf einem USM-basierten Conformer und ermöglicht automatische Spracherkennung sowie Sprachübersetzung direkt auf dem Gerät in über 140 Sprachen. Für Entwickler bietet Gemma 4 nativen Function-Calling-Support, System-Prompt-Unterstützung und eine Skill-basierte Architektur zur Workflow-Integration. Die Anwendung "Agent-Skills" in der Google AI Edge Gallery erlaubt vollständig lokale Multi-Step-Agenten-Workflows, einschließlich der Kopplung mit Text-zu-Sprache, Bildgenerierung und Musiksynthese. Laut Googles offiziellem Entwickler-Blog verarbeitet LiteRT-LM 4.000 Input-Tokens über zwei verschiedene Skills in weniger als drei Sekunden.
Relevanz für den DACH-Raum
Die On-Device-Verarbeitung ist besonders für den DACH-Raum von Vorteil, da personenbezogene Daten das Gerät nicht verlassen müssen. Dies kann in vielen Fällen die Pflicht zur Datenschutz-Folgenabschätzung nach Art. 35 DSGVO erübrigen, was einen konkreten Vorteil gegenüber Cloud-basierten Alternativen darstellt. Unter dem EU AI Act, dessen Hauptteil ab August 2026 in Kraft tritt, profitieren Entwickler zudem davon, dass lokale Open-Source-Modelle unter Apache-2.0 in der Regel geringere Compliance-Anforderungen mit sich bringen als gehostete GPAI-Modelle. Direkte Leistungsvergleiche mit Modellen wie Llama 4 oder Claude liegen aus den verifizierten Quellen zum Zeitpunkt dieser Meldung noch nicht vor.
❓ Häufig gestellte Fragen
📚 Quellen