GEO

Смесь экспертов (Mixture of Experts, MoE)

Смесь экспертов (Mixture of Experts, MoE) - это архитектура нейронной сети, в которой LLM содержит множество специализированных "экспертных" подсетей, и для каждого входного токена механизм гейтинга активирует лишь небольшое подмножество - обычно 2 из 8 или 8 из 256, - оставляя остальные в простое. Модель ведёт себя как огромное число параметров (ёмкость), при этом оплачивая стоимость инференса гораздо меньшей модели.

Смесь экспертов (Mixture of Experts, MoE) - это архитектура нейронной сети, в которой LLM содержит множество специализированных "экспертных" подсетей, и для каждого входного токена механизм гейтинга активирует лишь небольшое подмножество - обычно 2 из 8 или 8 из 256, - оставляя остальные в простое. Модель ведёт себя как огромное число параметров (ёмкость), при этом оплачивая стоимость инференса гораздо меньшей модели.

Почему это важно

MoE - это то, как современные LLM продолжают умнеть без взрывного роста стоимости инференса. Mixtral 8×7B, DeepSeek-V3, Grok-2 и, по сообщениям, GPT-4 - все используют MoE, чтобы дёшево наращивать ёмкость. Плотная модель на 400 млрд параметров вынуждена прогонять все 400 млрд весов на каждом токене. MoE-модель с 400 млрд параметров в сумме, но лишь 40 млрд активных за раз, работает примерно в 10 раз быстрее и дешевле, сохраняя при этом большую часть знаний, которые кодируют дополнительные параметры. Для разработчиков MoE меняет то, какие передовые модели на самом деле доступны для обслуживания и какие опции с открытым исходным кодом реалистичны при масштабировании.

Как это работает

Эксперты: Внутри каждого блока трансформера слой прямого распространения заменяется на N параллельных сетей прямого распространения ("экспертов"). Типично: 8, 16, 64 или 256 экспертов на слой.

Сеть гейтинга: Небольшой обучаемый маршрутизатор решает, каким top-k экспертам достанется обработка каждого токена. k обычно равно 1 или 2.

Разреженная активация: Только выбранные эксперты прогоняют свои веса для данного токена. Остальные не вносят вклад, поэтому вычисления масштабируются как k × размер эксперта, а не как общее число экспертов.

Балансировка нагрузки: Функция потерь на этапе обучения побуждает маршрутизатор распределять токены равномерно, чтобы ни один эксперт не голодал. Иначе модель сводится к использованию нескольких экспертов и тратит остальные впустую.

Агрегация: Выходы выбранных экспертов взвешиваются по оценкам гейта и суммируются.

Общие и активные параметры

У каждой спецификации MoE есть два числа:

  • Общее число параметров: Полное число весов модели (определяет память).
  • Активные параметры: Вычисления на токен (определяют стоимость инференса).

Пример: Mixtral 8×7B имеет ~47 млрд параметров в сумме, но лишь ~13 млрд активных на токен. DeepSeek-V3 имеет 671 млрд в сумме и 37 млрд активных. В этом разрыве и живёт магия MoE.

Почему это работает

Разные эксперты неявно специализируются в ходе обучения. Один эксперт может стать "экспертом по коду", другой - "экспертом по математике", третий - "экспертом по европейским языкам". Маршрутизатор учится направлять нужные токены к нужным экспертам. По духу это похоже на то, как люди задействуют разные области мозга для разных задач - эффективная маршрутизация сигнала, а не монолитный процесс.

Компромиссы

Память: Хотя на токен работают лишь некоторые эксперты, все эксперты находятся в VRAM. MoE на 671 млрд по-прежнему требует достаточно памяти GPU для 671 млрд параметров.

Сложность обслуживания: Маршрутизацию токенов к конкретным экспертам труднее распараллелить, чем плотный инференс. Обычно требуются специализированные движки инференса (vLLM, TensorRT, DeepSpeed).

Нестабильность обучения: Балансировка нагрузки, коллапс экспертов и шум маршрутизатора делают обучение MoE более хитрым, чем плотное обучение.

Накладные расходы на коммуникацию: В распределённом обучении маршрутизация "токен-эксперт" требует коммуникации GPU по схеме "все ко всем". Сеть становится узким местом.

Сложность дообучения: MoE-модели труднее эффективно дообучать - динамика маршрутизатора смещается с новыми данными.

MoE против плотных моделей

АспектПлотная модельMoE
Вычисления на токенВсе параметрыk из N экспертов
Объём памятиМалый для размераБольшой для размера
Стоимость инференсаПропорциональна общему числу параметровПропорциональна активным параметрам
Сложность обученияСтандартнаяВыше (балансировка, маршрутизация)
СпециализацияНеявная в слояхЯвная в экспертах

Эмпирическое правило: MoE выигрывает по стоимости на токен и утилизации вычислений; плотные модели выигрывают по эффективности памяти и эргономике дообучения.

Заметные MoE-модели

  • Mixtral 8×7B (Mistral, 2023): Первая широко используемая открытая MoE. 47 млрд в сумме, 13 млрд активных.
  • Mixtral 8×22B (Mistral, 2024): Более крупный вариант.
  • DeepSeek-V3 / V3.1 / R1 (DeepSeek, 2024-2025): 671 млрд в сумме, 37 млрд активных. Экстремальная MoE с 256 экспертами на слой, 8 активных.
  • Grok-2 (xAI, 2024): Архитектура MoE.
  • GPT-4 и Claude Opus: Широко считается, что внутри используют MoE (официально подтверждено не для всех).

Источники: