ローカルLLM 100B超モデル GPU別ベンチマーク 2026年版：Llama 4 / DeepSeek-V3 / Qwen 3 235B を RTX 5090 / PRO 6000 / Mac Studio M3 Ultra で動かす実測 tok/sec

本記事は Amazon.co.jp および各販売店のアフィリエイトリンクを含む場合があります。推奨は性能・コスパ・実機ベンチマーク基準で編集判断しており、提供記事は受け付けていません。詳細はプライバシーポリシーをご覧ください。

ローカルLLM 100B超 GPU別ベンチマーク 2026年版:Llama 4 / DeepSeek-V3 / Qwen 3 235B を RTX 5090 / PRO 6000 / Mac Studio M3 Ultra で実測 tok/sec

結論：100B超は「動くハード」が極端に絞られる。Q4_K_M で素直に動くのは事実上 RTX PRO 6000 96GB / Mac Studio M3 Ultra 256GB+ / マルチGPU 構成だけ。RTX 5090 32GB 単体では MoE のアクティブ分しか乗らず、残りは CPU offload で 5 tok/s 前後まで落ちます。DeepSeek-V3 671B を1台で乗せたいなら Mac Studio M3 Ultra 512GB がほぼ唯一の選択肢です。

2025年〜2026年にかけて「100B超のオープン重みモデル」が一気に増えました。Llama 4 Scout / Maverick、DeepSeek-V3、Qwen 3 235B はいずれも MoE（Mixture of Experts）で、アクティブパラメータは 17〜37B と小さく抑えつつ、総パラメータが 100B〜671B に達します。本記事は「総パラメータが大きい＝高VRAM必須」という MoE 特有のずれを整理し、2026年5月時点の公開ベンチと実測報告から各 GPU での tok/sec レンジをまとめます。

iris-lab の自前実機ではなく、公開ベンチ・コミュニティ実測報告（r/LocalLLaMA、Hugging Face、Apple 公式 MLX チーム、Hardware Corner 等）の横断集約です。数値は揺れる前提で、出典付きでレンジを示します。

100B超モデルの2026年5月時点のラインナップ

主要4モデル（5系列）を整理します。すべて MoE 構成です。

モデル	総パラメータ	アクティブ	エキスパート構成	公開状況 (2026年5月)
Llama 4 Scout	109B	17B	16E × 17B	Hugging Face で公開済み
Llama 4 Maverick	400B	17B	128E × 17B	Hugging Face で公開済み
Llama 4 Behemoth	約2T	288B	16E	未公開（teacher model 用途、Meta 訓練中）
DeepSeek-V3 (0324)	671B	37B	MoE	Hugging Face / Ollama で公開済み
Qwen 3 235B-A22B	235B	22B	MoE	Hugging Face で公開済み

Behemoth は 2025年4月の Llama 4 発表時点で「訓練中」とされ、Scout / Maverick の codistillation 用の教師モデルという位置づけです。2026年5月時点でも一般公開には至っていません（Meta の公式ブログとサードパーティ各社の解説記事を確認）。

MoE モデル特有の「VRAM要件」のずれ

最初に押さえておくべき MoE の罠が一つあります。

総パラメータ ≠ 推論時に必要な計算量：DeepSeek-V3 はアクティブ 37B なので、計算量とメモリ帯域消費は 37B 級。
総パラメータ = 必要 VRAM：エキスパートは入力ごとにルーティングで切り替わるため、全パラメータをロードしておく必要があります。

つまり「アクティブが軽いから速いが、容量は重い」という非対称な特性です。例えば DeepSeek-V3 Q4_K_M は 約 400GB のファイルになり、これを VRAM / Unified Memory に乗せる必要があります（Ollama 公式の deepseek-v3:671b-q4_K_M パッケージサイズ参照）。

CPU offload を使えば物理的には動きますが、エキスパートが CPU 側に置かれた場合、ルーティングのたびに DRAM ↔ VRAM の転送が走り、速度はおおむね 2〜5 tok/s 程度まで落ちます（llama.cpp Discussions の報告群）。

量子化と必要 VRAM の表

各モデルを実際に「動かす」のに必要なメモリの目安です。出典は Hugging Face のモデルカード、Ollama のパッケージサイズ、apxml の系統的まとめを横断したもの。

モデル	Q4_K_M	Q5_K_M	Q8_0	FP16
Llama 4 Scout (109B)	約 58GB	約 75GB	約 110GB	約 220GB
Llama 4 Maverick (400B)	約 220GB	約 280GB	約 420GB	約 800GB
DeepSeek-V3 (671B)	約 400GB	約 480GB	約 700GB	約 1.3TB
Qwen 3 235B-A22B	約 130GB	約 165GB	約 250GB	約 470GB

ここに KV キャッシュ（コンテキスト長×アクティブパラメータ依存）が乗ります。10K context で +10〜20GB、64K で +40GB を見ておくと安全です。

GPU別ベンチマーク（tok/sec、Q4_K_M ベース）

公開ベンチを横断して、各モデル × 主要 GPU の組み合わせをまとめます。短文プロンプト（〜2K context）でのデコード速度です。「OOM」は単体 VRAM に乗らず CPU offload が必須、または起動不能のケース。

Llama 4 Scout (109B 総 / 17B アクティブ)

GPU / SoC	量子化	メモリ消費	tok/s (生成)	ランタイム
RTX 5090 32GB	Q4_K_M	OOM (offload 必須)	8〜15	llama.cpp
RTX PRO 6000 96GB	Q4_K_M	約 65GB	30〜45	llama.cpp / vLLM
Mac Studio M3 Ultra 192GB	Q4_K_M	約 65GB	18〜25	MLX
Mac Studio M3 Ultra 256GB	Q4_K_M	約 65GB	18〜25	MLX

Hardware Corner の M3 Ultra 実機テストでは Scout が 10K context で 21.6 tok/s、Maverick が 24.8 tok/s と報告されています。Scout より総パラメータが大きい Maverick の方が速い、というのは「エキスパート数が多いほどアクティブ層のルーティングが安定して GPU をフル稼働させやすい」という MoE 実装側の事情で、Llama 4 系の特徴です。

Llama 4 Maverick (400B 総 / 17B アクティブ)

GPU / SoC	量子化	メモリ消費	tok/s (生成)	ランタイム
RTX 5090 32GB	Q4_K_M	OOM (大規模 offload)	1〜3	llama.cpp
RTX PRO 6000 96GB	Q4_K_M	OOM (offload 必須)	4〜8	llama.cpp
Mac Studio M3 Ultra 256GB	Q4_K_M	約 220GB	20〜28	MLX
Mac Studio M3 Ultra 512GB	Q4_K_M	約 220GB	20〜28	MLX

Maverick の 400B は単体 GPU では PRO 6000 96GB ですら乗りません。Mac Studio M3 Ultra 256GB なら Q4_K_M で 220GB 消費、残り 36GB を KV キャッシュとシステム用に使う構成になります。

DeepSeek-V3 (671B 総 / 37B アクティブ)

GPU / SoC	量子化	メモリ消費	tok/s (生成)	ランタイム
RTX 5090 32GB	Q4_K_M	OOM (CPU offload 大半)	2〜5	llama.cpp
RTX 4090 24GB	Q4_K_M	OOM (CPU offload 大半)	1〜3	llama.cpp
RTX PRO 6000 96GB	Q4_K_M	OOM (offload 必須)	4〜8	llama.cpp
Mac Studio M3 Ultra 512GB	Q4_K_M (MLX 4-bit)	約 400GB (16K で 466GB)	約 20〜21	MLX
マルチGPU 8×A100 80GB	Q4_K_M	約 400GB	30〜50	vLLM

DeepSeek-V3 を「1台で」動かせる消費者向け（に近い）ハードは Mac Studio M3 Ultra 512GB が事実上唯一です。Awni Hannun（Apple MLX チーム）の公開ベンチで MLX 4-bit が 20 tok/s 超を出した、というのが現時点の代表値（2025年3月、VentureBeat / Slashdot / Hardware Corner 等が一斉に報じた）。16K コンテキストではメモリ消費が 466GB まで膨らみ、512GB 構成の必然性がここで効いてきます。

Qwen 3 235B-A22B (235B 総 / 22B アクティブ)

GPU / SoC	量子化	メモリ消費	tok/s (生成)	ランタイム
RTX 5090 32GB	Q4_K_M	OOM (CPU offload)	3〜6	llama.cpp
RTX PRO 6000 96GB	Q4_K_M	OOM (一部 offload)	8〜15	llama.cpp
Mac Studio M3 Ultra 256GB	Q4_K_M	約 130GB	24〜30	MLX
Mac Studio M3 Ultra 512GB	Q5 (MLX)	約 165GB	20〜26	MLX
MacBook Pro M4 Max 128GB	Q4_K_M	約 130GB ギリギリ	5〜10	MLX

Hannun は 512GB M3 Ultra で MLX 4-bit Qwen3-235B-A22B を 24 tok/s（272GB 消費）で動かす実演を公開しています。MacStories の早期ベンチでも近い数値です。M4 Max 128GB はメモリ枠ギリギリで「動きはするがコンテキストを長く取れない」ラインです。

CPU offload の速度低下実例

RTX 5090 32GB で DeepSeek-V3 を動かす場合の典型例を分解します。

総パラメータ: 400GB (Q4_K_M)
GPU に乗る分: 28〜30GB（KV キャッシュ用に 2GB 残す）
CPU offload される分: 370GB+ → DDR5 メモリと NVMe にスワップ
結果: アクティブ層の半数以上が CPU 側で計算 → メモリ帯域がボトルネック → 2〜5 tok/s

ik_llama.cpp（高速化 fork）や Unsloth の最適化 GGUF で多少改善しますが、上限は CPU/DRAM 帯域で決まります。DDR5-6400 デュアルチャネルでも 102GB/s 程度、Mac Studio M3 Ultra の Unified Memory 800GB/s には遠く及びません。

正直、RTX 5090 32GB 単体で 100B 超を運用するのは「動作確認できる」レベルで、実用ではありません。Mac Studio の Unified Memory が「GPU と CPU の境界がない」設計なので、同じ「VRAM が足りない」状況でも CPU offload 相当の劣化が起きにくい、という構造上の優位があります。

ランタイム別の速度差

100B 超ではランタイム選択が tok/s に直結します。

llama.cpp (CUDA / Metal)：もっとも汎用。CPU offload を真面目に実装しているので、VRAM が足りないときの「とりあえず動かす」用途で第一選択。
vLLM：GPU 単体で完結する場合に最速。PagedAttention で KV キャッシュを効率化し、Llama 4 Maverick をマルチGPU で回す法人デプロイで定番。CPU offload は事実上非対応。
Ollama：llama.cpp ベースのラッパー。ollama pull deepseek-v3:671b-q4_K_M で 404GB が降ってくる。運用は楽だが、深いチューニングは llama.cpp 直叩きに譲る。
MLX：Apple Silicon 専用。M3 Ultra で DeepSeek-V3 / Qwen 3 235B を回す場合の標準。Unified Memory を素直に使い切る設計で、llama.cpp Metal バックエンドより数〜30%速いケースが多い。
SGLang：バッチ推論前提。並列リクエスト時のスループットで vLLM と並ぶ。

自分の数値が世間より遅いと感じたら、ランタイムを先に確認するのが早道です。同じ M3 Ultra でも MLX と llama.cpp Metal で 20〜30% 違うことがあります。

量子化フォーマットの精度差

100B 超では「Q4 で十分」と簡単に断言しにくい領域です。

量子化	VRAM比 (FP16=100%)	品質	用途
Q4_K_M	約 28%	標準。長文論理がたまに崩れる	個人・検証
Q5_K_M	約 35%	Q4_K_M より体感安定	実運用ライン
Q6_K	約 40%	Q8 とほぼ区別不能	業務エージェント
Q8_0	約 53%	FP16 とほぼ等価	精度が必要な研究
FP8	約 50%	Hopper / Blackwell で高速	NVIDIA 専用最適化

DeepSeek-V3 671B Q5_K_M を Mac Studio M3 Ultra 512GB で動かす、という構成が「コストを度外視すれば一番品質が出る」現実的な解です。FP8 は RTX PRO 6000 Blackwell / H100 / B200 で対応するため、法人デプロイ向け。

arxiv の DeepSeek 量子化精度低下分析（arxiv 2505.02390）では、Q4 で MMLU が 1〜2pt 程度落ちる程度、Q5 以上は誤差範囲、と報告されています。コーディングタスクではこの 1〜2pt が体感に効くので、業務エージェント用途では Q5 以上を推奨します。

ランタイムの組み合わせ別「単体で動く / 動かない」マップ

構成	Llama 4 Scout 109B	Llama 4 Maverick 400B	DeepSeek-V3 671B	Qwen 3 235B
RTX 5090 32GB	△ offload で動く	× 実用外	× 実用外	△ offload で動く
RTX PRO 6000 96GB	○ 余裕	△ offload	× 実用外	△ offload で動く
Mac Studio M3 Ultra 192GB	○ 余裕	× 容量不足	× 容量不足	△ ギリギリ
Mac Studio M3 Ultra 256GB	○ 余裕	○ 動く	× 容量不足	○ 余裕
Mac Studio M3 Ultra 512GB	○ 余裕	○ 余裕	○ 動く	○ 余裕
マルチGPU (4×PRO 6000 = 384GB)	○ 余裕	○ 余裕	○ Q4 で動く	○ 余裕

100B 超で「単体ハード1台」を狙うと、選択肢は Mac Studio M3 Ultra に大きく寄ります。NVIDIA で同等の容量を確保するにはマルチGPU が必須で、ホスト・電源・空調まで含めると 500 万円コースになります。

「100B超を動かす意味」のレビュー

ほとんどのユーザーは 100B 超を動かす必要がありません。

70B との品質差：MMLU / GPQA / HumanEval などのスコアで 5〜10pt 程度。会話の体感では「ちょっと賢い」止まり。
コスト差：70B が 1 台 80〜130 万円で動く一方、DeepSeek-V3 / Maverick を 1 台で動かすには Mac Studio M3 Ultra 512GB（約 200 万円）が必要。
クラウド API との比較：Claude / GPT / Gemini を月 200 ドル使っても 24 ヶ月で 480 万円。Mac Studio M3 Ultra 512GB を「24 時間ローカルで使う」と償却できるが、API 同等の品質と速度を出せるかは別問題。

ローカル運用が割に合うケースは限定的です。

オフライン環境：機密データ・規制対応で外部 API を使えない法人ユース。
大量バッチ：夜間に数万件の推論を回す研究・分析ワークロード。
長文コンテキスト：128K〜10M トークンを常時扱う用途（Llama 4 Scout の 10M context が刺さる領域）。
学習・研究目的：MoE の挙動を直接観察したい、新しい量子化を試したい等。

それ以外の用途では、Llama 3.3 70B または Qwen 2.5 72B あたりの「2025 年世代の 70B」を Q5/Q8 で運用したほうが、コストと速度のバランスが取れます。詳しくは Llama 3.3 70B GPU別ベンチマーク 2026年版で扱っています。

数値の見方の注意

ベンチマークは揺れる前提です。引用や比較の際に確認すべき軸を3つだけ。

コンテキスト長：100B 超は KV キャッシュが急膨張する。短文 2K と長文 32K で speed が半分以下になる。
量子化方式の差：「Q4」とだけ書かれた数値は Q4_K_M / Q4_0 / IQ4_XS で 10〜20% 違う。MLX 4-bit と GGUF Q4_K_M も別物。
ランタイムとバージョン：llama.cpp は四半期で最適化が入る。MLX は月単位で速くなる。半年前の数値は古い前提のことがある。

本記事の数値は 2026年5月時点の公開ベンチに基づきます。半年後にはマルチGPU でも DeepSeek-V3 が 100 tok/s 出ているかもしれません。

VRAM 容量論との関係

100B 超の議論は「速度」より「そもそも乗るか」が支配的です。Mac Studio M3 Ultra 512GB は速度で NVIDIA に劣りますが、DeepSeek-V3 671B を 1 台で動かせる選択肢が他にほぼ無い、という事実だけで存在価値があります。

容量論の詳細は Apple Silicon Unified Memory vs NVIDIA VRAM ローカルLLM 2026年版とローカルLLM量子化フォーマット別ベンチマーク 2026年版で扱っています。3本あわせて読むと、100B 超を扱うときの判断軸が一通り揃います。

入手先・関連商品

当サイトは Amazon.co.jp アソシエイト・プログラムに参加予定です。下記リンク経由で購入された場合、紹介料を受け取ることがあります。読者の負担は増えません。リンクは記事評価とは独立しており、編集判断には影響しません。

100B 超で「単体ハード1台」を狙うときの中核3製品です。RTX PRO 6000 は法人ルート（NPN 経由）の購入が中心、Mac Studio M3 Ultra 512GB は Apple 公式 BTO が確実です。

あなたに合うPCを診断する

用途や予算をもう少し細かく入力すると、3つの候補構成を提案します。

→ 診断スタート