コラム 比較

ローカルLLMの MoE(Mixture of Experts)とは 2026年版:なぜ DeepSeek V3.2・Llama 4 は巨大でも速いのか、必要VRAMの考え方

DeepSeek V3.2やLlama 4が主流化し、ローカルLLMはMoE(混合エキスパート)時代に入りました。総パラメータとactive parameterの違い、なぜ巨大モデルが高速に動くのか、そして「結局VRAMはいくら要るのか」を、dense(密)モデルと対比して図解で解説します。

  • #MoE
  • #Mixture of Experts
  • #ローカルLLM
  • #DeepSeek
  • #Llama 4
  • #Qwen3
  • #active parameter
  • #VRAM
  • #dense
  • #アーキテクチャ

ローカルLLMのMoE(Mixture of Experts)とは 2026:active parameterと総パラメータの違い

結論:MoE(Mixture of Experts)は「active parameter が速度(演算量)を決め、総パラメータが VRAM(搭載量)を決める」アーキテクチャです。DeepSeek V3.2 が 671B もありながら 37B 並みの速さで動くのは、毎回 37B 分のエキスパートしか発火させないから。ただし VRAM は総 671B 分が必要です。「active が小さい=軽い」は誤解で、MoE は『速いが軽くはない』。だからローカルでフル MoE を動かすには結局 96〜128GB 級の大容量メモリか複数 GPU が要ります。

2026 年、ローカル LLM の主役級モデル(DeepSeek V3.2、Llama 4 Scout / Maverick、Qwen3 シリーズ)はいずれも MoE(Mixture of Experts、混合エキスパート) という共通のアーキテクチャを採用しています。「671B なのに速い」「17B active って何?」といった言葉がモデルカードに並び、混乱した人も多いはずです。

この記事は、MoE とは何か、なぜ巨大なのに速いのか、そして実務で一番重要な「結局 VRAM はいくら要るのか」を、従来の dense(密)モデルと対比しながら図解で整理します。性能ベンチマークではなく、アーキテクチャの考え方そのものを扱う概念記事です。

まず核心:演算は active、メモリは総パラメータ

細かい話に入る前に、この記事で一番持ち帰ってほしい一文を先に置きます。

active parameter は速度(1 トークンあたりの演算量)を決め、総パラメータは VRAM(常駐させる重みの量)を決める。

MoE のスペック表を見て混乱するのは、この 2 つの数字が別々の意味を持っているからです。「109B / 17B active」と書かれていたら、速さは 17B 相当、メモリ消費は 109B 相当、と読みます。両者は連動しません。

dense(密)モデルとは何か

MoE を理解するには、まず従来型の dense(密)モデル を押さえる必要があります。

dense モデルは、1 トークンを生成するたびに すべてのパラメータを使って計算します。たとえば Qwen3 32B(dense)なら、毎回 32.8B 個のパラメータすべてが演算に参加します。これは素直で強力ですが、「賢くしたい=パラメータを増やしたい」と思うと、増やした分だけ毎回の演算量がそのまま重くなる、というジレンマがあります。賢さと速さがトレードオフなのです。

MoE:一部のエキスパートだけを発火させる

MoE はこのジレンマを「分業」で解きます。パラメータを多数の エキスパート(専門家) に分割し、入力トークンごとに ルーター(router) が「このトークンはどのエキスパートに任せるか」を選び、選ばれた一部だけを発火させます。

dense(密)MoE(混合エキスパート)
1トークンの計算全パラメータを使う選ばれた一部のエキスパートのみ
演算量(速度)パラメータ数に比例して重いactive parameter 相当で軽い
メモリ常駐全パラメータ全パラメータ(=総パラメータ)
賢さの伸ばし方増やすと毎回重くなるエキスパートを増やしても演算量は据え置き
代表例Qwen3 32B、Llama 3.3 70BDeepSeek V3.2、Llama 4、Qwen3 235B-A22B

ポイントは、エキスパートをいくら増やして総パラメータを膨らませても、毎回発火するのは一部だけなので演算量(速度)は増えないこと。これが「巨大なのに速い」のからくりです。賢さ(総容量)と速さ(active)を分離できる。これが MoE が 2026 年の主役になった理由です。

なぜ巨大でも速いのか:2026 年の実例

実際のモデルで数字を見ると、分離の効果が一目で分かります。

モデル総パラメータactive parameter速度の体感
Qwen3 32B(dense・対比用)32.8B32.8B(全部)32B 相当
Qwen3 30B-A3B30B3B3B 並みに軽快
Llama 4 Scout109B17B17B 並みの速さで 109B の知識
Llama 4 Maverick400B17B17B 並みの速さで 400B の知識
Qwen3 235B-A22B235B22B22B 並みの速さで 235B の知識
DeepSeek V3.2671B37B37B 並みの速さで 671B の知識

DeepSeek V3.2 を見てください。総 671B という巨大さなのに、毎回動くのは 37B 分。だから dense の 671B モデル(仮にあったとして)よりはるかに速く、しかも 37B dense より賢い、という「いいとこ取り」が成立します。Llama 4 Maverick に至っては 400B の知識量を 17B 並みの演算量で引き出します。

ところが VRAM は総パラメータ分かかる(最重要・誤解注意)

ここが MoE で最も誤解されるポイントです。「3B active なら 8GB の GPU で動くだろう」と思いがちですが、これは間違いです。

理由はシンプルで、推論時にどのエキスパートが選ばれるか事前に分からないから。ルーターはトークンごとに動的にエキスパートを選ぶので、「次にどれが必要になるか」を予測できません。結果として、全エキスパート(=総パラメータ分)の重みを常に VRAM に常駐させておく必要があります。

モデルactive(速度の目安)総パラメータ(VRAM の目安)Q4 実ファイル
Qwen3 30B-A3B3B30B約 18GB
Llama 4 Scout17B109B約 65GB
DeepSeek V3.237B671B約 400GB

Qwen3 30B-A3B は「3B 並みに速い」が、VRAM は 30B 分(Q4 で約 18GB)要ります。Llama 4 Scout は「17B 並みに速い」が、VRAM は 109B 分(Q4 で約 65GB)。速いが軽くはない、これが MoE の本質的な制約です。

容量から動かせるモデルを逆引きしたい人は「ローカルLLM メモリ容量別 動かせるモデル早見表」を、VRAM の必要量計算そのものは「VRAM とは何か」を合わせてどうぞ。

だからローカルで MoE を動かすには大容量メモリが要る

「速いが、総パラメータ分のメモリが要る」という性質から、ローカルでフルの MoE を動かす現実解は限られます。

やりたいこと現実的な構成
小型 MoE(30B-A3B 等)を軽快に24GB クラスの GPU(RTX 4090 / 5090)
Llama 4 Scout(109B)クラス96〜128GB 級 Unified Memory(Strix Halo / Mac Studio)
DeepSeek V3.2(671B)クラス数百 GB。複数 GPU サーバーか強い量子化が前提

ここで効いてくるのが、AMD Strix Halo や Apple Silicon の 大容量 Unified Memory です。最大 96〜128GB をまとめて VRAM 的に使えるため、「総パラメータが大きいが active は小さい」MoE と相性が良い。演算性能(active 相当でよい)よりメモリ容量(総パラメータ分)が効くワークロードなので、帯域・演算で勝る NVIDIA dGPU よりも、容量で勝る SoC 統合メモリが現実解になる場面が増えています。

この背景は「AMD Strix Halo の Unified Memory とは」で構造から解説しています。Apple Silicon と NVIDIA VRAM の違いを含めた全体像は「Unified Memory と NVIDIA VRAM、ローカルLLM では何が違うのか」が詳しいです。

まとめ:MoE は「賢さと速さを分離」した代わりに容量を要求する

  • MoE は active parameter が速度を、総パラメータが VRAM を決めるアーキテクチャ
  • dense は全パラメータを毎回使うが、MoE は一部のエキスパートだけ発火させる
  • だから 巨大でも速い(DeepSeek 671B が 37B 並みの速さで動く)
  • ただし VRAM は 総パラメータ分が必要(どのエキスパートが選ばれるか予測できないため)
  • 「active が小さい=軽い」は誤解。速いが軽くはない
  • ローカルでフル MoE を動かす現実解は 96〜128GB 級 Unified Memory か複数 GPU

MoE は 2026 年のローカル LLM を「巨大化と高速化の両立」へ進めた立役者です。ただしその恩恵を受けるには、総パラメータ分のメモリという入場料が要る。スペック表を見るときは、必ず「active(速さ)」と「総(メモリ)」の 2 つを分けて読む。この一点を押さえておけば、MoE 時代のモデル選びで失敗しません。


あなたに合うPCを診断する

用途や予算をもう少し細かく入力すると、3つの候補構成を提案します。

診断スタート

関連記事