GEO

Mixture of Experts

Mixture of Experts(MoE)는 LLM 안에 여러 전문화된 '전문가(expert)' 서브 네트워크를 두고, 각 입력 토큰마다 게이팅 메커니즘이 그중 소수만 — 보통 8개 중 2개, 또는 256개 중 8개 — 활성화하고 나머지는 쉬게 두는 신경망 구조입니다. 모델은 거대한 파라미터 수의 '용량'을 가지면서도 훨씬 작은 모델의 추론 비용만 치릅니다.

Mixture of Experts(MoE)는 LLM 안에 여러 전문화된 '전문가(expert)' 서브 네트워크를 두고, 각 입력 토큰마다 게이팅 메커니즘이 그중 소수만 — 보통 8개 중 2개, 또는 256개 중 8개 — 활성화하고 나머지는 쉬게 두는 신경망 구조입니다. 모델은 거대한 파라미터 수의 '용량'을 가지면서도 훨씬 작은 모델의 추론 비용만 치릅니다.

왜 중요한가

MoE는 현대 LLM이 추론 비용을 폭증시키지 않고 계속 똑똑해지는 방식입니다. Mixtral 8×7B·DeepSeek-V3·Grok-2, 그리고 GPT-4로 알려진 모델이 모두 MoE로 용량을 저렴하게 쌓습니다. 400B 밀집 모델은 모든 토큰에 400B 가중치를 돌려야 합니다. 총 400B 파라미터 중 한 번에 40B만 활성화하는 MoE는 약 10배 더 빠르고 저렴하게 작동하면서, 여분 파라미터가 담은 지식 대부분을 유지합니다. 빌더 입장에서 MoE는 '서빙할 수 있는 프런티어 모델이 무엇인가'와 '대규모에서 오픈소스 옵션이 무엇인가'를 바꿉니다.

작동 원리

전문가(Experts): 각 트랜스포머 블록 내부의 피드포워드 층이 N개의 병렬 피드포워드 네트워크(전문가)로 대체됩니다. 보통 층당 8·16·64·256개.

게이팅 네트워크: 작은 학습된 라우터가 각 토큰에 대해 상위 k개의 전문가를 고릅니다. k는 보통 1 또는 2.

희소 활성화: 선택된 전문가만 해당 토큰에서 가중치를 돌립니다. 나머지는 기여하지 않으므로, 연산은 '총 전문가 수'가 아니라 'k × 전문가 크기'에 비례.

로드 밸런싱: 훈련 시 손실 함수가 라우터가 토큰을 고르게 분배하도록 유도. 그렇지 않으면 몇 개 전문가만 사용하고 나머지가 놀아 모델이 붕괴.

집계: 선택된 전문가의 출력이 게이트 점수로 가중합됩니다.

총 파라미터 vs 활성 파라미터

모든 MoE 스펙에는 두 숫자가 있습니다:

  • 총 파라미터: 전체 모델 가중치 수(메모리 결정).
  • 활성 파라미터: 토큰당 연산량(추론 비용 결정).

예: Mixtral 8×7B는 총 ~47B, 토큰당 활성 ~13B. DeepSeek-V3는 총 671B, 활성 37B. 이 격차가 MoE의 마법입니다.

왜 작동하는가

훈련 중 전문가가 암묵적으로 전문화됩니다. 한 전문가는 '코드 전문가', 다른 전문가는 '수학 전문가', 또 다른 전문가는 '유럽 언어 전문가'가 됩니다. 라우터는 옳은 토큰을 옳은 전문가에게 보내는 법을 학습합니다. 인간이 과제에 따라 다른 뇌 영역을 쓰는 것과 영적으로 비슷합니다 — 단일 과정이 아니라 신호의 효율적 라우팅.

트레이드오프

메모리: 토큰당 일부 전문가만 돌아가도, 모든 전문가가 VRAM에 있어야 합니다. 671B MoE도 671B 파라미터의 GPU 메모리를 필요로 합니다.

서빙 복잡도: 토큰을 특정 전문가로 라우팅하는 것이 밀집 추론보다 병렬화가 어렵습니다. 전용 추론 엔진(vLLM·TensorRT·DeepSpeed)이 보통 필요.

훈련 불안정성: 로드 밸런싱·전문가 붕괴·라우터 노이즈로 MoE 훈련은 밀집보다 까다롭습니다.

통신 오버헤드: 분산 훈련에서 토큰-전문가 라우팅이 all-to-all GPU 통신을 요구. 네트워킹이 병목이 됩니다.

파인튜닝 난이도: MoE는 효과적으로 파인튜닝하기 어렵습니다 — 새 데이터에 라우터 동작이 드리프트.

MoE vs 밀집

항목밀집MoE
토큰당 연산모든 파라미터N 중 k 전문가
메모리 사이즈상대적으로 작음상대적으로 큼
추론 비용총 파라미터 비례활성 파라미터 비례
훈련 난이도표준더 어려움(밸런싱·라우팅)
전문화층에 암묵적전문가에 명시적

경험칙: MoE는 토큰당 비용과 연산 활용도에서 이기고, 밀집은 메모리 효율과 파인튜닝 사용성에서 이깁니다.

대표 MoE 모델

  • Mixtral 8×7B(Mistral, 2023): 널리 쓰인 첫 오픈 MoE. 총 47B, 활성 13B.
  • Mixtral 8×22B(Mistral, 2024): 더 큰 변형.
  • DeepSeek-V3 / V3.1 / R1(DeepSeek, 2024~2025): 총 671B, 활성 37B. 층당 256 전문가에 8개 활성화하는 극단적 MoE.
  • Grok-2(xAI, 2024): MoE 아키텍처.
  • GPT-4, Claude Opus: 공식 확인은 아니지만 내부적으로 MoE를 쓴다고 널리 여겨짐.

Sources:

관련 인블로그 게시물