GEO

Mixture of Experts(MoE)

Mixture of Experts(MoE)とは、LLMが多数の専門化された「エキスパート」サブネットワークを含み、入力トークンごとにゲーティング機構が小さな一部のみ(典型的には8個中2個、または256個中8個)を起動し、残りを休止させたままにするニューラルネットワークアーキテクチャです。このモデルは巨大なパラメータ数(容量)のように振る舞いながら、はるかに小さなモデルの推論コストで動作します。

Mixture of Experts(MoE)とは、LLMが多数の専門化された「エキスパート」サブネットワークを含み、入力トークンごとにゲーティング機構が小さな一部のみ(典型的には8個中2個、または256個中8個)を起動し、残りを休止させたままにするニューラルネットワークアーキテクチャです。このモデルは巨大なパラメータ数(容量)のように振る舞いながら、はるかに小さなモデルの推論コストで動作します。

なぜ重要なのか

MoEは、現代のLLMが推論コストを爆発させることなく賢くなり続けるための仕組みです。Mixtral 8×7B、DeepSeek-V3、Grok-2、そして報道によればGPT-4も、すべてMoEを使って容量を安価に積み上げています。密な4,000億パラメータのモデルは、すべてのトークンで4,000億の重みすべてを実行しなければなりません。総パラメータ4,000億でありながら一度に400億のみが起動するMoEモデルは、約10倍高速かつ低コストで動作しながら、追加パラメータがエンコードする知識のほとんどを保持します。開発者にとってMoEは、実際にどのフロンティアモデルが手頃に提供できるか、どのオープンソースの選択肢が大規模に実現可能かを変えるものです。

どのように機能するのか

エキスパート: 各Transformerブロックの内部で、フィードフォワード層がN個の並列フィードフォワードネットワーク(「エキスパート」)に置き換えられます。典型的には、層ごとに8、16、64、または256個のエキスパートです。

ゲーティングネットワーク: 小さな学習済みルーターが、各トークンを処理する上位k個のエキスパートを決定します。kは通常1または2です。

スパースな起動: そのトークンについて、選択されたエキスパートのみが重みを実行します。残りは寄与しないため、計算量は総エキスパート数ではなくk×エキスパートサイズに比例します。

負荷分散: 学習時の損失関数が、どのエキスパートも枯渇しないようルーターにトークンを均等に分配させます。そうしないと、モデルは少数のエキスパートのみを使うように崩壊し、残りを無駄にします。

集約: 選択されたエキスパートの出力がゲートスコアで重み付けされ、合算されます。

総パラメータ対アクティブパラメータ

すべてのMoEの仕様には2つの数値があります。

  • 総パラメータ: モデルの重みの総数(メモリを決定する)。
  • アクティブパラメータ: トークンごとの計算量(推論コストを決定する)。

例: Mixtral 8×7Bは総パラメータ約470億ですが、トークンごとにアクティブなのは約130億のみです。DeepSeek-V3は総パラメータ6,710億、アクティブ370億です。この差こそがMoEの魔法が宿る場所です。

なぜうまくいくのか

異なるエキスパートは学習中に暗黙的に専門化します。あるエキスパートは「コード」のエキスパートに、別のエキスパートは「数学」のエキスパートに、また別のエキスパートは「ヨーロッパ言語」のエキスパートになるかもしれません。ルーターは適切なトークンを適切なエキスパートに送ることを学習します。これは、人間が異なるタスクに異なる脳の領域を使う仕組みと精神的に似ています。モノリシックな処理ではなく、信号を効率的にルーティングするのです。

トレードオフ

メモリ: トークンごとに一部のエキスパートのみが実行されるとはいえ、すべてのエキスパートはVRAMに常駐します。6,710億のMoEは、依然として6,710億パラメータ分のGPUメモリを必要とします。

サービングの複雑さ: トークンを特定のエキスパートにルーティングするのは、密な推論よりも並列化が難しくなります。専用の推論エンジン(vLLM、TensorRT、DeepSpeed)が通常必要になります。

学習の不安定性: 負荷分散、エキスパートの崩壊、ルーターのノイズにより、MoEの学習は密な学習よりも扱いが難しくなります。

通信オーバーヘッド: 分散学習では、トークンからエキスパートへのルーティングにGPU間の全対全通信が必要です。ネットワークがボトルネックになります。

ファインチューニングの難しさ: MoEモデルは効果的にファインチューニングするのが難しくなります。新しいデータによってルーターの挙動がずれるためです。

MoE対密なモデル

観点密なモデルMoE
トークンごとの計算量全パラメータN個中k個のエキスパート
メモリフットプリントサイズの割に小さいサイズの割に大きい
推論コスト総パラメータに比例アクティブパラメータに比例
学習の難しさ標準的より難しい(分散、ルーティング)
専門化層内で暗黙的エキスパート内で明示的

経験則: MoEはトークンあたりのコストと計算リソースの利用効率で勝り、密なモデルはメモリ効率とファインチューニングの扱いやすさで勝ります。

注目すべきMoEモデル

  • Mixtral 8×7B(Mistral、2023年): 広く使われた最初のオープンMoE。総パラメータ470億、アクティブ130億。
  • Mixtral 8×22B(Mistral、2024年): より大規模なバリアント。
  • DeepSeek-V3 / V3.1 / R1(DeepSeek、2024〜2025年): 総パラメータ6,710億、アクティブ370億。層ごとに256個のエキスパート、8個がアクティブという極端なMoE。
  • Grok-2(xAI、2024年): MoEアーキテクチャ。
  • GPT-4とClaude Opus: 内部的にMoEを使用していると広く考えられています(すべてが公式に確認されているわけではありません)。

Sources: