¿Qué es Mixture of Experts (MoE)? | Glosario GEO

Mixture of Experts (MoE) es una arquitectura de red neuronal en la que un LLM contiene muchas subredes "expertas" especializadas y, para cada token de entrada, un mecanismo de compuerta activa solo un pequeño subconjunto, normalmente 2 de 8 u 8 de 256, mientras deja el resto inactivo. El modelo se comporta como si tuviera un recuento de parámetros enorme (capacidad) mientras paga el coste de inferencia de un modelo mucho más pequeño.

Por qué es importante

MoE es la forma en que los LLM modernos siguen volviéndose más inteligentes sin disparar el coste de inferencia. Mixtral 8×7B, DeepSeek-V3, Grok 4 y, según se informa, GPT-4 utilizan MoE para acumular capacidad de forma económica. Un modelo denso de 400.000 millones de parámetros tiene que ejecutar los 400.000 millones de pesos en cada token. Un modelo MoE con 400.000 millones de parámetros totales pero solo 40.000 millones activos a la vez se ejecuta unas 10 veces más rápido y barato, conservando la mayor parte del conocimiento que codifican los parámetros adicionales. Para quienes construyen sistemas, MoE cambia qué modelos de vanguardia son realmente asequibles de servir y qué opciones de código abierto son factibles a gran escala.

Cómo funciona

Expertos: dentro de cada bloque transformer, la capa de propagación hacia adelante se reemplaza por N redes de propagación hacia adelante paralelas ("expertos"). Lo habitual: 8, 16, 64 o 256 expertos por capa.

Red de compuerta: un pequeño enrutador aprendido decide qué expertos top-k procesan cada token. k suele ser 1 o 2.

Activación dispersa: solo los expertos seleccionados ejecutan sus pesos para ese token. El resto no contribuye, por lo que el cómputo escala con k × el tamaño del experto, no con el número total de expertos.

Equilibrio de carga: una función de pérdida en tiempo de entrenamiento anima al enrutador a distribuir los tokens de forma uniforme para que ningún experto se quede sin trabajo. De lo contrario, el modelo colapsa y usa solo unos pocos expertos, desperdiciando el resto.

Agregación: las salidas de los expertos seleccionados se ponderan según las puntuaciones de la compuerta y se suman.

Parámetros totales frente a activos

Toda especificación de MoE tiene dos números:

Parámetros totales: el recuento completo de pesos del modelo (determina la memoria).
Parámetros activos: el cómputo por token (determina el coste de inferencia).

Ejemplo: Mixtral 8×7B tiene unos 47.000 millones de parámetros totales pero solo unos 13.000 millones activos por token. DeepSeek-V3 tiene 671.000 millones totales y 37.000 millones activos. La diferencia es donde reside la magia de MoE.

Por qué funciona

Los distintos expertos se especializan de forma implícita durante el entrenamiento. Un experto puede convertirse en el experto de "código", otro en el de "matemáticas" y otro en el de "lenguas europeas". El enrutador aprende a enviar los tokens correctos a los expertos correctos. Esto es similar en espíritu a cómo los humanos usan diferentes regiones cerebrales para diferentes tareas: un enrutamiento eficiente de la señal, no un proceso monolítico.

Compensaciones

Memoria: aunque solo algunos expertos se ejecutan por token, todos los expertos residen en la VRAM. Un MoE de 671.000 millones sigue necesitando suficiente memoria de GPU para 671.000 millones de parámetros.

Complejidad de servicio: enrutar tokens a expertos específicos es más difícil de paralelizar que la inferencia densa. Por lo general se requieren motores de inferencia especializados (vLLM, TensorRT, DeepSpeed).

Inestabilidad del entrenamiento: el equilibrio de carga, el colapso de expertos y el ruido del enrutador hacen que el entrenamiento de MoE sea más complicado que el entrenamiento denso.

Sobrecarga de comunicación: en el entrenamiento distribuido, el enrutamiento de token a experto requiere comunicación todos-con-todos entre GPU. La red se convierte en un cuello de botella.

Dificultad de ajuste fino: los modelos MoE son más difíciles de ajustar con eficacia, ya que la dinámica del enrutador se desvía con los nuevos datos.

MoE frente a denso

Aspecto	Denso	MoE
Cómputo por token	Todos los parámetros	k de N expertos
Huella de memoria	Pequeña para su tamaño	Grande para su tamaño
Coste de inferencia	Proporcional al total de parámetros	Proporcional a los parámetros activos
Dificultad de entrenamiento	Estándar	Mayor (equilibrio, enrutamiento)
Especialización	Implícita en las capas	Explícita en los expertos

Regla general: MoE gana en coste por token y utilización del cómputo; el denso gana en eficiencia de memoria y ergonomía del ajuste fino.

Modelos MoE destacados

Mixtral 8×7B (Mistral, 2023): el primer MoE abierto de uso generalizado. 47.000 millones totales, 13.000 millones activos.
Mixtral 8×22B (Mistral, 2024): variante más grande.
DeepSeek-V3 / V3.1 / R1 (DeepSeek, 2024-2025): 671.000 millones totales, 37.000 millones activos. MoE extremo con 256 expertos por capa, 8 activos.
Grok 4 (xAI): arquitectura MoE.
GPT-4 y Claude Opus: se cree ampliamente que usan MoE de forma interna (no confirmado oficialmente para todos).

Sources: