Mixture of Experts (MoE) — PromptLoop Glossar

Was ist Mixture of Experts (MoE)?

Mixture of Experts (MoE) ist ein maschinelles Lernverfahren, bei dem ein Modell nicht aus einem einzigen, homogenen Netzwerk besteht, sondern aus mehreren spezialisierten Teilnetzwerken – den sogenannten Experten. Ein übergeordnetes Gating-Netzwerk (auch Router genannt) entscheidet dynamisch, welche Experten für eine gegebene Eingabe zuständig sind. Das Kernversprechen: Sparse Activation – nur ein Bruchteil der Gesamtparameter wird pro Inferenzschritt aktiviert. Das Konzept geht auf Arbeiten von Jacobs et al. aus den frühen 1990ern zurück, erlebt aber erst durch den Aufstieg großer Transformer-basierter Large Language Models (LLMs) seine eigentliche Renaissance. MoE löst ein fundamentales Skalierungsproblem: Je größer ein Dense-Modell, desto teurer jede einzelne Vorhersage – linear und unerbittlich.

Wie funktioniert Mixture of Experts (MoE)?

Die Architektur ersetzt in einem Transformer typischerweise die Feed-Forward-Schichten durch MoE-Schichten. Jede MoE-Schicht enthält N Experten-Netzwerke – in der Praxis oft 8, 64 oder mehr. Das Gating-Netzwerk berechnet für jedes eingehende Token einen Wahrscheinlichkeitsvektor über alle Experten und wählt die Top-K davon aus (meist K=1 oder K=2). Nur diese aktivierten Experten verarbeiten das Token; alle anderen bleiben idle. Das Ergebnis wird gewichtet kombiniert und an die nächste Schicht weitergereicht. Die technische Herausforderung liegt im sogenannten Load Balancing: Ohne Gegenmaßnahmen kollabiert das Routing – alle Token landen beim gleichen Experten, der Rest verkümmert. Moderne Implementierungen nutzen Auxiliary-Loss-Terme oder Token-Dropping-Strategien, um die Last gleichmäßig zu verteilen. Ein weiteres Kernproblem ist die Kommunikationslatenz bei verteiltem Training: Da verschiedene Experten auf verschiedenen Nodes liegen können, erzeugt jede Routing-Entscheidung potenziell teuren All-to-All-Traffic über das Netzwerk.

Mixture of Experts (MoE) in der Praxis

Googles Switch Transformer demonstrierte, dass MoE-Modelle bei gleichem Rechenbudget dichtere Modelle in Sprachaufgaben übertreffen – mit bis zu einem Trillion Parametern bei nur einem aktiven Experten pro Token. Mixtral 8x7B von Mistral AI brachte das Konzept in die Open-Source-Welt: 47 Milliarden Gesamtparameter, davon rund 12 Milliarden aktiv, auf Consumer-Hardware betreibbar. Das Modell erreichte bei mehreren Benchmarks die Performance deutlich größerer Dense-Modelle. Auch im Bereich Agentic AI gewinnt MoE an Bedeutung: Multi-Agent-Systeme, die auf schnelle, spezialisierte Inferenz angewiesen sind, profitieren direkt von der niedrigen Aktivierungslatenz. xAIs Grok-Modellreihe setzt ebenfalls auf MoE-Elemente, um Skalierung und Effizienz zu balancieren.

Vorteile und Grenzen

Der offensichtliche Vorteil ist die Recheneffizienz: Ein MoE-Modell kann bei gleichen FLOPs pro Inferenz deutlich mehr Parameter – und damit mehr gespeichertes Wissen – mitbringen als ein Dense-Modell. Das macht MoE besonders attraktiv für Szenarien, in denen Trainingskosten dominieren. Auf der anderen Seite ist der Speicherbedarf ein reales Problem: Alle Experten müssen im VRAM gehalten werden, auch wenn nur zwei gleichzeitig aktiv sind. Für Deployment auf Edge-Geräten ist MoE damit strukturell im Nachteil. Das Load-Balancing-Problem ist gelöst, aber nicht trivial – schlecht konfigurierte Router können die Qualitätsgewinne vollständig auffressen. Zudem ist Fine-Tuning von MoE-Modellen komplexer als bei Dense-Architekturen: Die Routing-Logik kann sich durch domänenspezifisches Training destabilisieren, was sorgfältiges Monitoring erfordert. MoE ist kein Universalrezept, sondern ein Werkzeug mit klarem Einsatzprofil: sinnvoll bei großen, verteilten Deployments – weniger geeignet, wo Speicher knapp ist.

❓ Häufig gestellte Fragen

▶ Was ist der Unterschied zwischen einem MoE-Modell und einem Dense-Modell?

Ein Dense-Modell aktiviert bei jeder Vorhersage alle seine Parameter. Ein MoE-Modell aktiviert pro Token nur eine kleine Teilmenge spezialisierter Experten-Netzwerke. Das bedeutet: gleiche oder höhere Gesamtparameterzahl, aber deutlich geringere Rechenkosten pro Inferenzschritt.

▶ Warum braucht MoE ein Gating-Netzwerk?

Das Gating-Netzwerk (Router) entscheidet für jedes eingehende Token, welche Experten es verarbeiten. Ohne diesen Mechanismus würde das Modell nicht wissen, welche spezialisierten Teilnetzwerke für eine bestimmte Eingabe am besten geeignet sind – die Spezialisierung der Experten wäre wertlos.

▶ Kann ich MoE-Modelle lokal auf meiner Hardware betreiben?

Ja, prinzipiell schon – aber der Speicherbedarf ist die entscheidende Hürde. Bei MoE müssen alle Experten im VRAM vorgehalten werden, auch wenn pro Inferenz nur wenige aktiv sind. Mixtral 8x7B benötigt beispielsweise deutlich mehr VRAM als ein Dense-Modell mit ähnlicher Rechenleistung. Mit Quantisierung (z. B. 4-bit) ist der Betrieb auf High-End-Consumer-GPUs möglich.

Stand: 20. März 2026