Смесь экспертов (Mixture of Experts, MoE)
Смесь экспертов (Mixture of Experts, MoE) - это архитектура нейронной сети, в которой LLM содержит множество специализированных "экспертных" подсетей, и для каждого входного токена механизм гейтинга активирует лишь небольшое подмножество - обычно 2 из 8 или 8 из 256, - оставляя остальные в простое. Модель ведёт себя как огромное число параметров (ёмкость), при этом оплачивая стоимость инференса гораздо меньшей модели.
Смесь экспертов (Mixture of Experts, MoE) - это архитектура нейронной сети, в которой LLM содержит множество специализированных "экспертных" подсетей, и для каждого входного токена механизм гейтинга активирует лишь небольшое подмножество - обычно 2 из 8 или 8 из 256, - оставляя остальные в простое. Модель ведёт себя как огромное число параметров (ёмкость), при этом оплачивая стоимость инференса гораздо меньшей модели.
Почему это важно
MoE - это то, как современные LLM продолжают умнеть без взрывного роста стоимости инференса. Mixtral 8×7B, DeepSeek-V3, Grok-2 и, по сообщениям, GPT-4 - все используют MoE, чтобы дёшево наращивать ёмкость. Плотная модель на 400 млрд параметров вынуждена прогонять все 400 млрд весов на каждом токене. MoE-модель с 400 млрд параметров в сумме, но лишь 40 млрд активных за раз, работает примерно в 10 раз быстрее и дешевле, сохраняя при этом большую часть знаний, которые кодируют дополнительные параметры. Для разработчиков MoE меняет то, какие передовые модели на самом деле доступны для обслуживания и какие опции с открытым исходным кодом реалистичны при масштабировании.
Как это работает
Эксперты: Внутри каждого блока трансформера слой прямого распространения заменяется на N параллельных сетей прямого распространения ("экспертов"). Типично: 8, 16, 64 или 256 экспертов на слой.
Сеть гейтинга: Небольшой обучаемый маршрутизатор решает, каким top-k экспертам достанется обработка каждого токена. k обычно равно 1 или 2.
Разреженная активация: Только выбранные эксперты прогоняют свои веса для данного токена. Остальные не вносят вклад, поэтому вычисления масштабируются как k × размер эксперта, а не как общее число экспертов.
Балансировка нагрузки: Функция потерь на этапе обучения побуждает маршрутизатор распределять токены равномерно, чтобы ни один эксперт не голодал. Иначе модель сводится к использованию нескольких экспертов и тратит остальные впустую.
Агрегация: Выходы выбранных экспертов взвешиваются по оценкам гейта и суммируются.
Общие и активные параметры
У каждой спецификации MoE есть два числа:
- Общее число параметров: Полное число весов модели (определяет память).
- Активные параметры: Вычисления на токен (определяют стоимость инференса).
Пример: Mixtral 8×7B имеет ~47 млрд параметров в сумме, но лишь ~13 млрд активных на токен. DeepSeek-V3 имеет 671 млрд в сумме и 37 млрд активных. В этом разрыве и живёт магия MoE.
Почему это работает
Разные эксперты неявно специализируются в ходе обучения. Один эксперт может стать "экспертом по коду", другой - "экспертом по математике", третий - "экспертом по европейским языкам". Маршрутизатор учится направлять нужные токены к нужным экспертам. По духу это похоже на то, как люди задействуют разные области мозга для разных задач - эффективная маршрутизация сигнала, а не монолитный процесс.
Компромиссы
Память: Хотя на токен работают лишь некоторые эксперты, все эксперты находятся в VRAM. MoE на 671 млрд по-прежнему требует достаточно памяти GPU для 671 млрд параметров.
Сложность обслуживания: Маршрутизацию токенов к конкретным экспертам труднее распараллелить, чем плотный инференс. Обычно требуются специализированные движки инференса (vLLM, TensorRT, DeepSpeed).
Нестабильность обучения: Балансировка нагрузки, коллапс экспертов и шум маршрутизатора делают обучение MoE более хитрым, чем плотное обучение.
Накладные расходы на коммуникацию: В распределённом обучении маршрутизация "токен-эксперт" требует коммуникации GPU по схеме "все ко всем". Сеть становится узким местом.
Сложность дообучения: MoE-модели труднее эффективно дообучать - динамика маршрутизатора смещается с новыми данными.
MoE против плотных моделей
| Аспект | Плотная модель | MoE |
|---|---|---|
| Вычисления на токен | Все параметры | k из N экспертов |
| Объём памяти | Малый для размера | Большой для размера |
| Стоимость инференса | Пропорциональна общему числу параметров | Пропорциональна активным параметрам |
| Сложность обучения | Стандартная | Выше (балансировка, маршрутизация) |
| Специализация | Неявная в слоях | Явная в экспертах |
Эмпирическое правило: MoE выигрывает по стоимости на токен и утилизации вычислений; плотные модели выигрывают по эффективности памяти и эргономике дообучения.
Заметные MoE-модели
- Mixtral 8×7B (Mistral, 2023): Первая широко используемая открытая MoE. 47 млрд в сумме, 13 млрд активных.
- Mixtral 8×22B (Mistral, 2024): Более крупный вариант.
- DeepSeek-V3 / V3.1 / R1 (DeepSeek, 2024-2025): 671 млрд в сумме, 37 млрд активных. Экстремальная MoE с 256 экспертами на слой, 8 активных.
- Grok-2 (xAI, 2024): Архитектура MoE.
- GPT-4 и Claude Opus: Широко считается, что внутри используют MoE (официально подтверждено не для всех).
Источники: