GEO

Mixture of Experts (MoE)

Mixture of Experts (MoE) ist eine Architektur neuronaler Netze, bei der ein LLM viele spezialisierte "Experten"-Teilnetze enthält und für jedes Eingabe-Token ein Gating-Mechanismus nur eine kleine Teilmenge aktiviert, typischerweise 2 von 8 oder 8 von 256, während der Rest inaktiv bleibt. Das Modell verhält sich wie ein Modell mit einer riesigen Parameterzahl (Kapazität), zahlt dabei aber die Inferenzkosten eines weitaus kleineren Modells.

Mixture of Experts (MoE) ist eine Architektur neuronaler Netze, bei der ein LLM viele spezialisierte "Experten"-Teilnetze enthält und für jedes Eingabe-Token ein Gating-Mechanismus nur eine kleine Teilmenge aktiviert, typischerweise 2 von 8 oder 8 von 256, während der Rest inaktiv bleibt. Das Modell verhält sich wie ein Modell mit einer riesigen Parameterzahl (Kapazität), zahlt dabei aber die Inferenzkosten eines weitaus kleineren Modells.

Warum das wichtig ist

MoE ist der Grund, warum moderne LLMs immer leistungsfähiger werden, ohne dass die Inferenzkosten explodieren. Mixtral 8×7B, DeepSeek-V3, Grok-2 und Berichten zufolge auch GPT-4 nutzen MoE, um Kapazität kostengünstig zu stapeln. Ein dichtes Modell mit 400 Mrd. Parametern muss bei jedem Token alle 400 Mrd. Gewichte ausführen. Ein MoE-Modell mit insgesamt 400 Mrd. Parametern, aber nur 40 Mrd. gleichzeitig aktiven, läuft etwa 10-mal schneller und günstiger und behält dabei den Großteil des Wissens, das die zusätzlichen Parameter codieren. Für Entwickler verändert MoE, welche Spitzenmodelle sich tatsächlich kostengünstig bereitstellen lassen und welche Open-Source-Optionen im großen Maßstab machbar sind.

Wie es funktioniert

Experten: Innerhalb jedes Transformer-Blocks wird die Feed-Forward-Schicht durch N parallele Feed-Forward-Netze ("Experten") ersetzt. Typisch: 8, 16, 64 oder 256 Experten pro Schicht.

Gating-Netz: Ein kleiner erlernter Router entscheidet, welche Top-k-Experten jedes Token verarbeiten dürfen. k ist meist 1 oder 2.

Spärliche Aktivierung: Nur die ausgewählten Experten führen für dieses Token ihre Gewichte aus. Der Rest trägt nichts bei, sodass der Rechenaufwand mit k × Expertengröße skaliert, nicht mit der Gesamtzahl der Experten.

Lastverteilung: Eine während des Trainings wirksame Verlustfunktion bewegt den Router dazu, die Token gleichmäßig zu verteilen, damit kein Experte leer ausgeht. Andernfalls kollabiert das Modell darauf, nur wenige Experten zu nutzen, und verschwendet die übrigen.

Aggregation: Die Ausgaben der ausgewählten Experten werden mit den Gate-Werten gewichtet und summiert.

Gesamt- vs. aktive Parameter

Jede MoE-Spezifikation hat zwei Zahlen:

  • Gesamtparameter: Die vollständige Gewichtszahl des Modells (bestimmt den Speicherbedarf).
  • Aktive Parameter: Rechenaufwand pro Token (bestimmt die Inferenzkosten).

Beispiel: Mixtral 8×7B hat ca. 47 Mrd. Gesamtparameter, aber nur ca. 13 Mrd. aktive pro Token. DeepSeek-V3 hat 671 Mrd. gesamt und 37 Mrd. aktive. In dieser Lücke liegt die Magie von MoE.

Warum es funktioniert

Verschiedene Experten spezialisieren sich während des Trainings implizit. Ein Experte könnte zum "Code"-Experten werden, ein anderer zum "Mathe"-Experten, ein weiterer zum Experten für "europäische Sprachen". Der Router lernt, die richtigen Token an die richtigen Experten zu senden. Das ähnelt im Grundsatz der Art, wie Menschen unterschiedliche Hirnregionen für unterschiedliche Aufgaben nutzen: ein effizientes Weiterleiten des Signals, kein monolithischer Prozess.

Kompromisse

Speicher: Auch wenn pro Token nur einige Experten laufen, liegen alle Experten im VRAM. Ein MoE mit 671 Mrd. benötigt weiterhin ausreichend GPU-Speicher für 671 Mrd. Parameter.

Komplexität der Bereitstellung: Token an bestimmte Experten weiterzuleiten, lässt sich schwerer parallelisieren als dichte Inferenz. Üblicherweise sind spezialisierte Inferenz-Engines (vLLM, TensorRT, DeepSpeed) erforderlich.

Instabilität beim Training: Lastverteilung, Expertenkollaps und Router-Rauschen machen das MoE-Training kniffliger als dichtes Training.

Kommunikationsaufwand: Beim verteilten Training erfordert das Routing von Token zu Experten eine All-to-All-Kommunikation zwischen den GPUs. Das Netzwerk wird zum Engpass.

Schwierigkeit beim Fine-Tuning: MoE-Modelle lassen sich schwerer wirksam feinabstimmen, da die Router-Dynamik mit neuen Daten driftet.

MoE vs. Dense

AspektDenseMoE
Rechenaufwand pro TokenAlle Parameterk von N Experten
SpeicherbedarfKlein für die GrößeGroß für die Größe
InferenzkostenProportional zu den GesamtparameternProportional zu den aktiven Parametern
Schwierigkeit beim TrainingStandardSchwerer (Verteilung, Routing)
SpezialisierungImplizit in den SchichtenExplizit in den Experten

Faustregel: MoE gewinnt bei den Kosten pro Token und der Rechenauslastung; Dense gewinnt bei der Speichereffizienz und der Handhabung beim Fine-Tuning.

Bemerkenswerte MoE-Modelle

  • Mixtral 8×7B (Mistral, 2023): Erstes weit verbreitetes offenes MoE. 47 Mrd. gesamt, 13 Mrd. aktiv.
  • Mixtral 8×22B (Mistral, 2024): Größere Variante.
  • DeepSeek-V3 / V3.1 / R1 (DeepSeek, 2024–2025): 671 Mrd. gesamt, 37 Mrd. aktiv. Extremes MoE mit 256 Experten pro Schicht, 8 aktiv.
  • Grok-2 (xAI, 2024): MoE-Architektur.
  • GPT-4 und Claude Opus: Es wird weithin angenommen, dass sie intern MoE nutzen (nicht für alle offiziell bestätigt).

Quellen: