ローカルLLMの MoE(Mixture of Experts)とは 2026年版:なぜ DeepSeek V3.2・Llama 4 は巨大でも速いのか、必要VRAMの考え方
DeepSeek V3.2やLlama 4が主流化し、ローカルLLMはMoE(混合エキスパート)時代に入りました。総パラメータとactive parameterの違い、なぜ巨大モデルが高速に動くのか、そして「結局VRAMはいくら要るのか」を、dense(密)モデルと対比して図解で解説します。
- #MoE
- #Mixture of Experts
- #ローカルLLM
- #DeepSeek
- #Llama 4
- #Qwen3
- #active parameter
- #VRAM
- #dense
- #アーキテクチャ

結論:MoE(Mixture of Experts)は「active parameter が速度(演算量)を決め、総パラメータが VRAM(搭載量)を決める」アーキテクチャです。DeepSeek V3.2 が 671B もありながら 37B 並みの速さで動くのは、毎回 37B 分のエキスパートしか発火させないから。ただし VRAM は総 671B 分が必要です。「active が小さい=軽い」は誤解で、MoE は『速いが軽くはない』。だからローカルでフル MoE を動かすには結局 96〜128GB 級の大容量メモリか複数 GPU が要ります。
2026 年、ローカル LLM の主役級モデル(DeepSeek V3.2、Llama 4 Scout / Maverick、Qwen3 シリーズ)はいずれも MoE(Mixture of Experts、混合エキスパート) という共通のアーキテクチャを採用しています。「671B なのに速い」「17B active って何?」といった言葉がモデルカードに並び、混乱した人も多いはずです。
この記事は、MoE とは何か、なぜ巨大なのに速いのか、そして実務で一番重要な「結局 VRAM はいくら要るのか」を、従来の dense(密)モデルと対比しながら図解で整理します。性能ベンチマークではなく、アーキテクチャの考え方そのものを扱う概念記事です。
まず核心:演算は active、メモリは総パラメータ
細かい話に入る前に、この記事で一番持ち帰ってほしい一文を先に置きます。
active parameter は速度(1 トークンあたりの演算量)を決め、総パラメータは VRAM(常駐させる重みの量)を決める。
MoE のスペック表を見て混乱するのは、この 2 つの数字が別々の意味を持っているからです。「109B / 17B active」と書かれていたら、速さは 17B 相当、メモリ消費は 109B 相当、と読みます。両者は連動しません。
dense(密)モデルとは何か
MoE を理解するには、まず従来型の dense(密)モデル を押さえる必要があります。
dense モデルは、1 トークンを生成するたびに すべてのパラメータを使って計算します。たとえば Qwen3 32B(dense)なら、毎回 32.8B 個のパラメータすべてが演算に参加します。これは素直で強力ですが、「賢くしたい=パラメータを増やしたい」と思うと、増やした分だけ毎回の演算量がそのまま重くなる、というジレンマがあります。賢さと速さがトレードオフなのです。
MoE:一部のエキスパートだけを発火させる
MoE はこのジレンマを「分業」で解きます。パラメータを多数の エキスパート(専門家) に分割し、入力トークンごとに ルーター(router) が「このトークンはどのエキスパートに任せるか」を選び、選ばれた一部だけを発火させます。
| dense(密) | MoE(混合エキスパート) | |
|---|---|---|
| 1トークンの計算 | 全パラメータを使う | 選ばれた一部のエキスパートのみ |
| 演算量(速度) | パラメータ数に比例して重い | active parameter 相当で軽い |
| メモリ常駐 | 全パラメータ | 全パラメータ(=総パラメータ) |
| 賢さの伸ばし方 | 増やすと毎回重くなる | エキスパートを増やしても演算量は据え置き |
| 代表例 | Qwen3 32B、Llama 3.3 70B | DeepSeek V3.2、Llama 4、Qwen3 235B-A22B |
ポイントは、エキスパートをいくら増やして総パラメータを膨らませても、毎回発火するのは一部だけなので演算量(速度)は増えないこと。これが「巨大なのに速い」のからくりです。賢さ(総容量)と速さ(active)を分離できる。これが MoE が 2026 年の主役になった理由です。
なぜ巨大でも速いのか:2026 年の実例
実際のモデルで数字を見ると、分離の効果が一目で分かります。
| モデル | 総パラメータ | active parameter | 速度の体感 |
|---|---|---|---|
| Qwen3 32B(dense・対比用) | 32.8B | 32.8B(全部) | 32B 相当 |
| Qwen3 30B-A3B | 30B | 3B | 3B 並みに軽快 |
| Llama 4 Scout | 109B | 17B | 17B 並みの速さで 109B の知識 |
| Llama 4 Maverick | 400B | 17B | 17B 並みの速さで 400B の知識 |
| Qwen3 235B-A22B | 235B | 22B | 22B 並みの速さで 235B の知識 |
| DeepSeek V3.2 | 671B | 37B | 37B 並みの速さで 671B の知識 |
DeepSeek V3.2 を見てください。総 671B という巨大さなのに、毎回動くのは 37B 分。だから dense の 671B モデル(仮にあったとして)よりはるかに速く、しかも 37B dense より賢い、という「いいとこ取り」が成立します。Llama 4 Maverick に至っては 400B の知識量を 17B 並みの演算量で引き出します。
ところが VRAM は総パラメータ分かかる(最重要・誤解注意)
ここが MoE で最も誤解されるポイントです。「3B active なら 8GB の GPU で動くだろう」と思いがちですが、これは間違いです。
理由はシンプルで、推論時にどのエキスパートが選ばれるか事前に分からないから。ルーターはトークンごとに動的にエキスパートを選ぶので、「次にどれが必要になるか」を予測できません。結果として、全エキスパート(=総パラメータ分)の重みを常に VRAM に常駐させておく必要があります。
| モデル | active(速度の目安) | 総パラメータ(VRAM の目安) | Q4 実ファイル |
|---|---|---|---|
| Qwen3 30B-A3B | 3B | 30B | 約 18GB |
| Llama 4 Scout | 17B | 109B | 約 65GB |
| DeepSeek V3.2 | 37B | 671B | 約 400GB |
Qwen3 30B-A3B は「3B 並みに速い」が、VRAM は 30B 分(Q4 で約 18GB)要ります。Llama 4 Scout は「17B 並みに速い」が、VRAM は 109B 分(Q4 で約 65GB)。速いが軽くはない、これが MoE の本質的な制約です。
容量から動かせるモデルを逆引きしたい人は「ローカルLLM メモリ容量別 動かせるモデル早見表」を、VRAM の必要量計算そのものは「VRAM とは何か」を合わせてどうぞ。
だからローカルで MoE を動かすには大容量メモリが要る
「速いが、総パラメータ分のメモリが要る」という性質から、ローカルでフルの MoE を動かす現実解は限られます。
| やりたいこと | 現実的な構成 |
|---|---|
| 小型 MoE(30B-A3B 等)を軽快に | 24GB クラスの GPU(RTX 4090 / 5090) |
| Llama 4 Scout(109B)クラス | 96〜128GB 級 Unified Memory(Strix Halo / Mac Studio) |
| DeepSeek V3.2(671B)クラス | 数百 GB。複数 GPU サーバーか強い量子化が前提 |
ここで効いてくるのが、AMD Strix Halo や Apple Silicon の 大容量 Unified Memory です。最大 96〜128GB をまとめて VRAM 的に使えるため、「総パラメータが大きいが active は小さい」MoE と相性が良い。演算性能(active 相当でよい)よりメモリ容量(総パラメータ分)が効くワークロードなので、帯域・演算で勝る NVIDIA dGPU よりも、容量で勝る SoC 統合メモリが現実解になる場面が増えています。
この背景は「AMD Strix Halo の Unified Memory とは」で構造から解説しています。Apple Silicon と NVIDIA VRAM の違いを含めた全体像は「Unified Memory と NVIDIA VRAM、ローカルLLM では何が違うのか」が詳しいです。
まとめ:MoE は「賢さと速さを分離」した代わりに容量を要求する
- MoE は active parameter が速度を、総パラメータが VRAM を決めるアーキテクチャ
- dense は全パラメータを毎回使うが、MoE は一部のエキスパートだけ発火させる
- だから 巨大でも速い(DeepSeek 671B が 37B 並みの速さで動く)
- ただし VRAM は 総パラメータ分が必要(どのエキスパートが選ばれるか予測できないため)
- 「active が小さい=軽い」は誤解。速いが軽くはない
- ローカルでフル MoE を動かす現実解は 96〜128GB 級 Unified Memory か複数 GPU
MoE は 2026 年のローカル LLM を「巨大化と高速化の両立」へ進めた立役者です。ただしその恩恵を受けるには、総パラメータ分のメモリという入場料が要る。スペック表を見るときは、必ず「active(速さ)」と「総(メモリ)」の 2 つを分けて読む。この一点を押さえておけば、MoE 時代のモデル選びで失敗しません。
あなたに合うPCを診断する
用途や予算をもう少し細かく入力すると、3つの候補構成を提案します。
→ 診断スタート
関連記事
- AMD Strix Halo の Unified Memory とは 2026年版:大容量メモリで MoE を動かす土台となる SoC 統合メモリの構造
- VRAM とは何か。ローカルLLM 推論に必要な量の決まり方 2026年版:必要VRAMの計算基礎。MoE の総パラメータ分という考え方の前提
- ローカルLLM メモリ容量別 動かせるモデル早見表 2026年版:容量から動かせる MoE を逆引きする
- Llama 3.3 70B GPUベンチマーク 2026年版:dense 70B の実測。MoE との速度感の対比に