Mixture of Experts (MoE)
Mixture of Experts (MoE) es una arquitectura de red neuronal en la que un LLM contiene muchas subredes "expertas" especializadas y, para cada token de entrada, un mecanismo de compuerta activa solo un pequeño subconjunto, normalmente 2 de 8 u 8 de 256, mientras deja el resto inactivo. El modelo se comporta como si tuviera un recuento de parámetros enorme (capacidad) mientras paga el coste de inferencia de un modelo mucho más pequeño.
Mixture of Experts (MoE) es una arquitectura de red neuronal en la que un LLM contiene muchas subredes "expertas" especializadas y, para cada token de entrada, un mecanismo de compuerta activa solo un pequeño subconjunto, normalmente 2 de 8 u 8 de 256, mientras deja el resto inactivo. El modelo se comporta como si tuviera un recuento de parámetros enorme (capacidad) mientras paga el coste de inferencia de un modelo mucho más pequeño.
Por qué es importante
MoE es la forma en que los LLM modernos siguen volviéndose más inteligentes sin disparar el coste de inferencia. Mixtral 8×7B, DeepSeek-V3, Grok-2 y, según se informa, GPT-4 utilizan MoE para acumular capacidad de forma económica. Un modelo denso de 400.000 millones de parámetros tiene que ejecutar los 400.000 millones de pesos en cada token. Un modelo MoE con 400.000 millones de parámetros totales pero solo 40.000 millones activos a la vez se ejecuta unas 10 veces más rápido y barato, conservando la mayor parte del conocimiento que codifican los parámetros adicionales. Para quienes construyen sistemas, MoE cambia qué modelos de vanguardia son realmente asequibles de servir y qué opciones de código abierto son factibles a gran escala.
Cómo funciona
Expertos: dentro de cada bloque transformer, la capa de propagación hacia adelante se reemplaza por N redes de propagación hacia adelante paralelas ("expertos"). Lo habitual: 8, 16, 64 o 256 expertos por capa.
Red de compuerta: un pequeño enrutador aprendido decide qué expertos top-k procesan cada token. k suele ser 1 o 2.
Activación dispersa: solo los expertos seleccionados ejecutan sus pesos para ese token. El resto no contribuye, por lo que el cómputo escala con k × el tamaño del experto, no con el número total de expertos.
Equilibrio de carga: una función de pérdida en tiempo de entrenamiento anima al enrutador a distribuir los tokens de forma uniforme para que ningún experto se quede sin trabajo. De lo contrario, el modelo colapsa y usa solo unos pocos expertos, desperdiciando el resto.
Agregación: las salidas de los expertos seleccionados se ponderan según las puntuaciones de la compuerta y se suman.
Parámetros totales frente a activos
Toda especificación de MoE tiene dos números:
- Parámetros totales: el recuento completo de pesos del modelo (determina la memoria).
- Parámetros activos: el cómputo por token (determina el coste de inferencia).
Ejemplo: Mixtral 8×7B tiene unos 47.000 millones de parámetros totales pero solo unos 13.000 millones activos por token. DeepSeek-V3 tiene 671.000 millones totales y 37.000 millones activos. La diferencia es donde reside la magia de MoE.
Por qué funciona
Los distintos expertos se especializan de forma implícita durante el entrenamiento. Un experto puede convertirse en el experto de "código", otro en el de "matemáticas" y otro en el de "lenguas europeas". El enrutador aprende a enviar los tokens correctos a los expertos correctos. Esto es similar en espíritu a cómo los humanos usan diferentes regiones cerebrales para diferentes tareas: un enrutamiento eficiente de la señal, no un proceso monolítico.
Compensaciones
Memoria: aunque solo algunos expertos se ejecutan por token, todos los expertos residen en la VRAM. Un MoE de 671.000 millones sigue necesitando suficiente memoria de GPU para 671.000 millones de parámetros.
Complejidad de servicio: enrutar tokens a expertos específicos es más difícil de paralelizar que la inferencia densa. Por lo general se requieren motores de inferencia especializados (vLLM, TensorRT, DeepSpeed).
Inestabilidad del entrenamiento: el equilibrio de carga, el colapso de expertos y el ruido del enrutador hacen que el entrenamiento de MoE sea más complicado que el entrenamiento denso.
Sobrecarga de comunicación: en el entrenamiento distribuido, el enrutamiento de token a experto requiere comunicación todos-con-todos entre GPU. La red se convierte en un cuello de botella.
Dificultad de ajuste fino: los modelos MoE son más difíciles de ajustar con eficacia, ya que la dinámica del enrutador se desvía con los nuevos datos.
MoE frente a denso
| Aspecto | Denso | MoE |
|---|---|---|
| Cómputo por token | Todos los parámetros | k de N expertos |
| Huella de memoria | Pequeña para su tamaño | Grande para su tamaño |
| Coste de inferencia | Proporcional al total de parámetros | Proporcional a los parámetros activos |
| Dificultad de entrenamiento | Estándar | Mayor (equilibrio, enrutamiento) |
| Especialización | Implícita en las capas | Explícita en los expertos |
Regla general: MoE gana en coste por token y utilización del cómputo; el denso gana en eficiencia de memoria y ergonomía del ajuste fino.
Modelos MoE destacados
- Mixtral 8×7B (Mistral, 2023): el primer MoE abierto de uso generalizado. 47.000 millones totales, 13.000 millones activos.
- Mixtral 8×22B (Mistral, 2024): variante más grande.
- DeepSeek-V3 / V3.1 / R1 (DeepSeek, 2024-2025): 671.000 millones totales, 37.000 millones activos. MoE extremo con 256 expertos por capa, 8 activos.
- Grok-2 (xAI, 2024): arquitectura MoE.
- GPT-4 y Claude Opus: se cree ampliamente que usan MoE de forma interna (no confirmado oficialmente para todos).
Sources: