MoE と dense（密）モデルの違いは？

dense モデルは 1 トークン生成のたびに全パラメータを使って計算します。MoE（Mixture of Experts）はパラメータを多数の「エキスパート」に分割し、ルーターがトークンごとに一部のエキスパートだけを選んで発火させます。たとえば DeepSeek V3.2 は 671B のうち 37B 分しか毎回使いません。結果として、巨大な知識容量を持ちながら推論の演算量は小さく抑えられます。

MoE は active parameter が小さいから VRAM も少なくて済む？

いいえ。これが最大の誤解です。active parameter は 1 トークンあたりの演算量（=速度）を決めますが、推論時にどのエキスパートが選ばれるか事前に分からないため、総パラメータ分の重みをすべて VRAM に常駐させる必要があります。Llama 4 Scout は active 17B でも総 109B 分、DeepSeek V3.2 は active 37B でも総 671B 分のメモリが要ります。

ローカルで MoE をフルに動かすには何が必要？

総パラメータ分の VRAM / Unified Memory が要るため、Llama 4 Scout（109B）の Q4 でも約 65GB、DeepSeek V3.2 クラスなら数百 GB が必要です。現実的には 96〜128GB 級の Unified Memory（Strix Halo / Mac Studio）か複数 GPU 構成、あるいは小型の Qwen3 30B-A3B のような MoE を選ぶことになります。

ローカルLLMの MoE（Mixture of Experts）とは 2026年版：なぜ DeepSeek V3.2・Llama 4 は巨大でも速いのか、必要VRAMの考え方

ローカルLLMのMoE（Mixture of Experts）とは 2026:active parameterと総パラメータの違い

結論：MoE（Mixture of Experts）は「active parameter が速度（演算量）を決め、総パラメータが VRAM（搭載量）を決める」アーキテクチャです。DeepSeek V3.2 が 671B もありながら 37B 並みの速さで動くのは、毎回 37B 分のエキスパートしか発火させないから。ただし VRAM は総 671B 分が必要です。「active が小さい＝軽い」は誤解で、MoE は『速いが軽くはない』。だからローカルでフル MoE を動かすには結局 96〜128GB 級の大容量メモリか複数 GPU が要ります。

2026 年、ローカル LLM の主役級モデル（DeepSeek V3.2、Llama 4 Scout / Maverick、Qwen3 シリーズ）はいずれも MoE（Mixture of Experts、混合エキスパート） という共通のアーキテクチャを採用しています。「671B なのに速い」「17B active って何？」といった言葉がモデルカードに並び、混乱した人も多いはずです。

この記事は、MoE とは何か、なぜ巨大なのに速いのか、そして実務で一番重要な「結局 VRAM はいくら要るのか」を、従来の dense（密）モデルと対比しながら図解で整理します。性能ベンチマークではなく、アーキテクチャの考え方そのものを扱う概念記事です。

まず核心：演算は active、メモリは総パラメータ

細かい話に入る前に、この記事で一番持ち帰ってほしい一文を先に置きます。

active parameter は速度（1 トークンあたりの演算量）を決め、総パラメータは VRAM（常駐させる重みの量）を決める。

MoE のスペック表を見て混乱するのは、この 2 つの数字が別々の意味を持っているからです。「109B / 17B active」と書かれていたら、速さは 17B 相当、メモリ消費は 109B 相当、と読みます。両者は連動しません。

dense（密）モデルとは何か

MoE を理解するには、まず従来型の dense（密）モデル を押さえる必要があります。

dense モデルは、1 トークンを生成するたびに すべてのパラメータを使って計算します。たとえば Qwen3 32B（dense）なら、毎回 32.8B 個のパラメータすべてが演算に参加します。これは素直で強力ですが、「賢くしたい＝パラメータを増やしたい」と思うと、増やした分だけ毎回の演算量がそのまま重くなる、というジレンマがあります。賢さと速さがトレードオフなのです。

MoE：一部のエキスパートだけを発火させる

MoE はこのジレンマを「分業」で解きます。パラメータを多数の エキスパート（専門家） に分割し、入力トークンごとに ルーター（router） が「このトークンはどのエキスパートに任せるか」を選び、選ばれた一部だけを発火させます。

	dense（密）	MoE（混合エキスパート）
1トークンの計算	全パラメータを使う	選ばれた一部のエキスパートのみ
演算量（速度）	パラメータ数に比例して重い	active parameter 相当で軽い
メモリ常駐	全パラメータ	全パラメータ（=総パラメータ）
賢さの伸ばし方	増やすと毎回重くなる	エキスパートを増やしても演算量は据え置き
代表例	Qwen3 32B、Llama 3.3 70B	DeepSeek V3.2、Llama 4、Qwen3 235B-A22B

ポイントは、エキスパートをいくら増やして総パラメータを膨らませても、毎回発火するのは一部だけなので演算量（速度）は増えないこと。これが「巨大なのに速い」のからくりです。賢さ（総容量）と速さ（active）を分離できる。これが MoE が 2026 年の主役になった理由です。

なぜ巨大でも速いのか：2026 年の実例

実際のモデルで数字を見ると、分離の効果が一目で分かります。

モデル	総パラメータ	active parameter	速度の体感
Qwen3 32B（dense・対比用）	32.8B	32.8B（全部）	32B 相当
Qwen3 30B-A3B	30B	3B	3B 並みに軽快
Llama 4 Scout	109B	17B	17B 並みの速さで 109B の知識
Llama 4 Maverick	400B	17B	17B 並みの速さで 400B の知識
Qwen3 235B-A22B	235B	22B	22B 並みの速さで 235B の知識
DeepSeek V3.2	671B	37B	37B 並みの速さで 671B の知識

DeepSeek V3.2 を見てください。総 671B という巨大さなのに、毎回動くのは 37B 分。だから dense の 671B モデル（仮にあったとして）よりはるかに速く、しかも 37B dense より賢い、という「いいとこ取り」が成立します。Llama 4 Maverick に至っては 400B の知識量を 17B 並みの演算量で引き出します。

ところが VRAM は総パラメータ分かかる（最重要・誤解注意）

ここが MoE で最も誤解されるポイントです。「3B active なら 8GB の GPU で動くだろう」と思いがちですが、これは間違いです。

理由はシンプルで、推論時にどのエキスパートが選ばれるか事前に分からないから。ルーターはトークンごとに動的にエキスパートを選ぶので、「次にどれが必要になるか」を予測できません。結果として、全エキスパート（=総パラメータ分）の重みを常に VRAM に常駐させておく必要があります。

モデル	active（速度の目安）	総パラメータ（VRAM の目安）	Q4 実ファイル
Qwen3 30B-A3B	3B	30B	約 18GB
Llama 4 Scout	17B	109B	約 65GB
DeepSeek V3.2	37B	671B	約 400GB

Qwen3 30B-A3B は「3B 並みに速い」が、VRAM は 30B 分（Q4 で約 18GB）要ります。Llama 4 Scout は「17B 並みに速い」が、VRAM は 109B 分（Q4 で約 65GB）。速いが軽くはない、これが MoE の本質的な制約です。

容量から動かせるモデルを逆引きしたい人は「ローカルLLM メモリ容量別動かせるモデル早見表」を、VRAM の必要量計算そのものは「VRAM とは何か」を合わせてどうぞ。

だからローカルで MoE を動かすには大容量メモリが要る

「速いが、総パラメータ分のメモリが要る」という性質から、ローカルでフルの MoE を動かす現実解は限られます。

やりたいこと	現実的な構成
小型 MoE（30B-A3B 等）を軽快に	24GB クラスの GPU（RTX 4090 / 5090）
Llama 4 Scout（109B）クラス	96〜128GB 級 Unified Memory（Strix Halo / Mac Studio）
DeepSeek V3.2（671B）クラス	数百 GB。複数 GPU サーバーか強い量子化が前提

ここで効いてくるのが、AMD Strix Halo や Apple Silicon の 大容量 Unified Memory です。最大 96〜128GB をまとめて VRAM 的に使えるため、「総パラメータが大きいが active は小さい」MoE と相性が良い。演算性能（active 相当でよい）よりメモリ容量（総パラメータ分）が効くワークロードなので、帯域・演算で勝る NVIDIA dGPU よりも、容量で勝る SoC 統合メモリが現実解になる場面が増えています。

この背景は「AMD Strix Halo の Unified Memory とは」で構造から解説しています。Apple Silicon と NVIDIA VRAM の違いを含めた全体像は「Unified Memory と NVIDIA VRAM、ローカルLLM では何が違うのか」が詳しいです。

まとめ：MoE は「賢さと速さを分離」した代わりに容量を要求する

MoE は active parameter が速度を、総パラメータが VRAM を決めるアーキテクチャ
dense は全パラメータを毎回使うが、MoE は一部のエキスパートだけ発火させる
だから 巨大でも速い（DeepSeek 671B が 37B 並みの速さで動く）
ただし VRAM は 総パラメータ分が必要（どのエキスパートが選ばれるか予測できないため）
「active が小さい＝軽い」は誤解。速いが軽くはない
ローカルでフル MoE を動かす現実解は 96〜128GB 級 Unified Memory か複数 GPU

MoE は 2026 年のローカル LLM を「巨大化と高速化の両立」へ進めた立役者です。ただしその恩恵を受けるには、総パラメータ分のメモリという入場料が要る。スペック表を見るときは、必ず「active（速さ）」と「総（メモリ）」の 2 つを分けて読む。この一点を押さえておけば、MoE 時代のモデル選びで失敗しません。

あなたに合うPCを診断する

用途や予算をもう少し細かく入力すると、3つの候補構成を提案します。

→ 診断スタート

AMD Strix Halo の Unified Memory とは 2026年版：大容量メモリで MoE を動かす土台となる SoC 統合メモリの構造
VRAM とは何か。ローカルLLM 推論に必要な量の決まり方 2026年版：必要VRAMの計算基礎。MoE の総パラメータ分という考え方の前提
ローカルLLM メモリ容量別動かせるモデル早見表 2026年版：容量から動かせる MoE を逆引きする
Llama 3.3 70B GPUベンチマーク 2026年版：dense 70B の実測。MoE との速度感の対比に