Mixture of Experts (MoE)
Mixture of Experts (MoE) e uma arquitetura de rede neural na qual um LLM contem muitas sub-redes "especialistas" e, para cada token de entrada, um mecanismo de gating ativa apenas um pequeno subconjunto - tipicamente 2 de 8, ou 8 de 256 - deixando o restante ocioso. O modelo se comporta como se tivesse uma contagem enorme de parametros (capacidade) enquanto paga o custo de inferencia de um modelo muito menor.
Mixture of Experts (MoE) e uma arquitetura de rede neural na qual um LLM contem muitas sub-redes "especialistas" e, para cada token de entrada, um mecanismo de gating ativa apenas um pequeno subconjunto - tipicamente 2 de 8, ou 8 de 256 - deixando o restante ocioso. O modelo se comporta como se tivesse uma contagem enorme de parametros (capacidade) enquanto paga o custo de inferencia de um modelo muito menor.
Por que importa
MoE e como os LLMs modernos continuam ficando mais inteligentes sem explodir o custo de inferencia. Mixtral 8x7B, DeepSeek-V3, Grok-2 e, segundo relatos, o GPT-4 usam MoE para empilhar capacidade de forma barata. Um modelo denso de 400B de parametros precisa rodar todos os 400B de pesos em cada token. Um modelo MoE com 400B de parametros totais, mas apenas 40B ativos por vez, roda cerca de 10x mais rapido e mais barato, preservando a maior parte do conhecimento que os parametros extras codificam. Para quem constroi produtos, MoE muda quais modelos de fronteira sao de fato viaveis de servir e quais opcoes de codigo aberto sao praticaveis em escala.
Como funciona
Especialistas: Dentro de cada bloco transformer, a camada feed-forward e substituida por N redes feed-forward paralelas ("especialistas"). Tipico: 8, 16, 64 ou 256 especialistas por camada.
Rede de gating: Um pequeno roteador aprendido decide quais especialistas top-k vao processar cada token. k costuma ser 1 ou 2.
Ativacao esparsa: Apenas os especialistas selecionados executam seus pesos para aquele token. O resto nao contribui, entao o custo computacional escala com k x tamanho do especialista, e nao com a contagem total de especialistas.
Balanceamento de carga: Uma perda (loss) aplicada durante o treinamento incentiva o roteador a distribuir os tokens de forma uniforme, para que nenhum especialista fique sem uso. Caso contrario, o modelo colapsa para usar poucos especialistas e desperdica o resto.
Agregacao: As saidas dos especialistas selecionados sao ponderadas pelos scores do gate e somadas.
Parametros totais x ativos
Toda especificacao de MoE tem dois numeros:
- Parametros totais: A contagem completa de pesos do modelo (determina a memoria).
- Parametros ativos: Computacao por token (determina o custo de inferencia).
Exemplo: o Mixtral 8x7B tem ~47B de parametros totais, mas apenas ~13B ativos por token. O DeepSeek-V3 tem 671B totais e 37B ativos. Essa diferenca e onde vive a magica do MoE.
Por que funciona
Diferentes especialistas se especializam implicitamente durante o treinamento. Um especialista pode se tornar o especialista de "codigo", outro o de "matematica", outro o de "linguas europeias". O roteador aprende a enviar os tokens certos para os especialistas certos. Isso e parecido, em espirito, com a forma como os humanos usam diferentes regioes do cerebro para diferentes tarefas - roteamento eficiente do sinal, e nao um processo monolitico.
Trade-offs
Memoria: Embora apenas alguns especialistas rodem por token, todos os especialistas ficam na VRAM. Um MoE de 671B ainda precisa de memoria de GPU suficiente para 671B de parametros.
Complexidade de servir: Rotear tokens para especialistas especificos e mais dificil de paralelizar do que a inferencia densa. Engines de inferencia especializados (vLLM, TensorRT, DeepSpeed) costumam ser necessarios.
Instabilidade de treinamento: Balanceamento de carga, colapso de especialistas e ruido do roteador tornam o treinamento de MoE mais complicado do que o treinamento denso.
Sobrecarga de comunicacao: No treinamento distribuido, o roteamento de token para especialista exige comunicacao all-to-all entre GPUs. A rede vira um gargalo.
Dificuldade de fine-tuning: Modelos MoE sao mais dificeis de ajustar com eficacia - a dinamica do roteador deriva com novos dados.
MoE x Denso
| Aspecto | Denso | MoE |
|---|---|---|
| Computacao por token | Todos os parametros | k de N especialistas |
| Pegada de memoria | Pequena para o tamanho | Grande para o tamanho |
| Custo de inferencia | Proporcional aos parametros totais | Proporcional aos parametros ativos |
| Dificuldade de treinamento | Padrao | Mais dificil (balanceamento, roteamento) |
| Especializacao | Implicita nas camadas | Explicita nos especialistas |
Regra pratica: MoE vence em custo por token e utilizacao de computacao; o denso vence em eficiencia de memoria e ergonomia de fine-tuning.
Modelos MoE notaveis
- Mixtral 8x7B (Mistral, 2023): Primeiro MoE aberto amplamente usado. 47B totais, 13B ativos.
- Mixtral 8x22B (Mistral, 2024): Variante maior.
- DeepSeek-V3 / V3.1 / R1 (DeepSeek, 2024-2025): 671B totais, 37B ativos. MoE extremo com 256 especialistas por camada, 8 ativos.
- Grok-2 (xAI, 2024): Arquitetura MoE.
- GPT-4 e Claude Opus: Acredita-se amplamente que usam MoE internamente (nao confirmado oficialmente para todos).
Fontes: