ローカルLLM 100B超モデル GPU別ベンチマーク 2026年版:Llama 4 / DeepSeek-V3 / Qwen 3 235B を RTX 5090 / PRO 6000 / Mac Studio M3 Ultra で動かす実測 tok/sec
Llama 4 / DeepSeek-V3 / Qwen 3 235B など100Bパラメータ超のローカルLLMを、RTX 5090 / RTX PRO 6000 / Mac Studio M3 Ultra で動かしたトークン/秒を2026年版で実測します。VRAM・Unified Memory の割当量と量子化フォーマット(Q4_K_M / Q5_K_M / Q8_0)による速度差をまとめます。
- #ローカルLLM
- #Llama 4
- #DeepSeek-V3
- #Qwen 3 235B
- #RTX 5090
- #RTX PRO 6000
- #Mac Studio M3 Ultra
- #MoE
- #tok/sec
- #100B超
本記事は Amazon.co.jp および各販売店のアフィリエイトリンクを含む場合があります。推奨は性能・コスパ・実機ベンチマーク基準で編集判断しており、提供記事は受け付けていません。詳細は プライバシーポリシー をご覧ください。

結論:100B超は「動くハード」が極端に絞られる。Q4_K_M で素直に動くのは事実上 RTX PRO 6000 96GB / Mac Studio M3 Ultra 256GB+ / マルチGPU 構成だけ。RTX 5090 32GB 単体では MoE のアクティブ分しか乗らず、残りは CPU offload で 5 tok/s 前後まで落ちます。DeepSeek-V3 671B を1台で乗せたいなら Mac Studio M3 Ultra 512GB がほぼ唯一の選択肢です。
2025年〜2026年にかけて「100B超のオープン重みモデル」が一気に増えました。Llama 4 Scout / Maverick、DeepSeek-V3、Qwen 3 235B はいずれも MoE(Mixture of Experts)で、アクティブパラメータは 17〜37B と小さく抑えつつ、総パラメータが 100B〜671B に達します。本記事は「総パラメータが大きい=高VRAM必須」という MoE 特有のずれを整理し、2026年5月時点の公開ベンチと実測報告から各 GPU での tok/sec レンジをまとめます。
iris-lab の自前実機ではなく、公開ベンチ・コミュニティ実測報告(r/LocalLLaMA、Hugging Face、Apple 公式 MLX チーム、Hardware Corner 等)の横断集約です。数値は揺れる前提で、出典付きでレンジを示します。
100B超モデルの2026年5月時点のラインナップ
主要4モデル(5系列)を整理します。すべて MoE 構成です。
| モデル | 総パラメータ | アクティブ | エキスパート構成 | 公開状況 (2026年5月) |
|---|---|---|---|---|
| Llama 4 Scout | 109B | 17B | 16E × 17B | Hugging Face で公開済み |
| Llama 4 Maverick | 400B | 17B | 128E × 17B | Hugging Face で公開済み |
| Llama 4 Behemoth | 約2T | 288B | 16E | 未公開(teacher model 用途、Meta 訓練中) |
| DeepSeek-V3 (0324) | 671B | 37B | MoE | Hugging Face / Ollama で公開済み |
| Qwen 3 235B-A22B | 235B | 22B | MoE | Hugging Face で公開済み |
Behemoth は 2025年4月の Llama 4 発表時点で「訓練中」とされ、Scout / Maverick の codistillation 用の教師モデルという位置づけです。2026年5月時点でも一般公開には至っていません(Meta の公式ブログとサードパーティ各社の解説記事を確認)。
MoE モデル特有の「VRAM要件」のずれ
最初に押さえておくべき MoE の罠が一つあります。
- 総パラメータ ≠ 推論時に必要な計算量:DeepSeek-V3 はアクティブ 37B なので、計算量とメモリ帯域消費は 37B 級。
- 総パラメータ = 必要 VRAM:エキスパートは入力ごとにルーティングで切り替わるため、全パラメータをロードしておく必要があります。
つまり「アクティブが軽いから速いが、容量は重い」という非対称な特性です。例えば DeepSeek-V3 Q4_K_M は 約 400GB のファイルになり、これを VRAM / Unified Memory に乗せる必要があります(Ollama 公式の deepseek-v3:671b-q4_K_M パッケージサイズ参照)。
CPU offload を使えば物理的には動きますが、エキスパートが CPU 側に置かれた場合、ルーティングのたびに DRAM ↔ VRAM の転送が走り、速度はおおむね 2〜5 tok/s 程度まで落ちます(llama.cpp Discussions の報告群)。
量子化と必要 VRAM の表
各モデルを実際に「動かす」のに必要なメモリの目安です。出典は Hugging Face のモデルカード、Ollama のパッケージサイズ、apxml の系統的まとめを横断したもの。
| モデル | Q4_K_M | Q5_K_M | Q8_0 | FP16 |
|---|---|---|---|---|
| Llama 4 Scout (109B) | 約 58GB | 約 75GB | 約 110GB | 約 220GB |
| Llama 4 Maverick (400B) | 約 220GB | 約 280GB | 約 420GB | 約 800GB |
| DeepSeek-V3 (671B) | 約 400GB | 約 480GB | 約 700GB | 約 1.3TB |
| Qwen 3 235B-A22B | 約 130GB | 約 165GB | 約 250GB | 約 470GB |
ここに KV キャッシュ(コンテキスト長×アクティブパラメータ依存)が乗ります。10K context で +10〜20GB、64K で +40GB を見ておくと安全です。
GPU別ベンチマーク(tok/sec、Q4_K_M ベース)
公開ベンチを横断して、各モデル × 主要 GPU の組み合わせをまとめます。短文プロンプト(〜2K context)でのデコード速度です。「OOM」は単体 VRAM に乗らず CPU offload が必須、または起動不能のケース。
Llama 4 Scout (109B 総 / 17B アクティブ)
| GPU / SoC | 量子化 | メモリ消費 | tok/s (生成) | ランタイム |
|---|---|---|---|---|
| RTX 5090 32GB | Q4_K_M | OOM (offload 必須) | 8〜15 | llama.cpp |
| RTX PRO 6000 96GB | Q4_K_M | 約 65GB | 30〜45 | llama.cpp / vLLM |
| Mac Studio M3 Ultra 192GB | Q4_K_M | 約 65GB | 18〜25 | MLX |
| Mac Studio M3 Ultra 256GB | Q4_K_M | 約 65GB | 18〜25 | MLX |
Hardware Corner の M3 Ultra 実機テストでは Scout が 10K context で 21.6 tok/s、Maverick が 24.8 tok/s と報告されています。Scout より総パラメータが大きい Maverick の方が速い、というのは「エキスパート数が多いほどアクティブ層のルーティングが安定して GPU をフル稼働させやすい」という MoE 実装側の事情で、Llama 4 系の特徴です。
Llama 4 Maverick (400B 総 / 17B アクティブ)
| GPU / SoC | 量子化 | メモリ消費 | tok/s (生成) | ランタイム |
|---|---|---|---|---|
| RTX 5090 32GB | Q4_K_M | OOM (大規模 offload) | 1〜3 | llama.cpp |
| RTX PRO 6000 96GB | Q4_K_M | OOM (offload 必須) | 4〜8 | llama.cpp |
| Mac Studio M3 Ultra 256GB | Q4_K_M | 約 220GB | 20〜28 | MLX |
| Mac Studio M3 Ultra 512GB | Q4_K_M | 約 220GB | 20〜28 | MLX |
Maverick の 400B は単体 GPU では PRO 6000 96GB ですら乗りません。Mac Studio M3 Ultra 256GB なら Q4_K_M で 220GB 消費、残り 36GB を KV キャッシュとシステム用に使う構成になります。
DeepSeek-V3 (671B 総 / 37B アクティブ)
| GPU / SoC | 量子化 | メモリ消費 | tok/s (生成) | ランタイム |
|---|---|---|---|---|
| RTX 5090 32GB | Q4_K_M | OOM (CPU offload 大半) | 2〜5 | llama.cpp |
| RTX 4090 24GB | Q4_K_M | OOM (CPU offload 大半) | 1〜3 | llama.cpp |
| RTX PRO 6000 96GB | Q4_K_M | OOM (offload 必須) | 4〜8 | llama.cpp |
| Mac Studio M3 Ultra 512GB | Q4_K_M (MLX 4-bit) | 約 400GB (16K で 466GB) | 約 20〜21 | MLX |
| マルチGPU 8×A100 80GB | Q4_K_M | 約 400GB | 30〜50 | vLLM |
DeepSeek-V3 を「1台で」動かせる消費者向け(に近い)ハードは Mac Studio M3 Ultra 512GB が事実上唯一です。Awni Hannun(Apple MLX チーム)の公開ベンチで MLX 4-bit が 20 tok/s 超を出した、というのが現時点の代表値(2025年3月、VentureBeat / Slashdot / Hardware Corner 等が一斉に報じた)。16K コンテキストではメモリ消費が 466GB まで膨らみ、512GB 構成の必然性がここで効いてきます。
Qwen 3 235B-A22B (235B 総 / 22B アクティブ)
| GPU / SoC | 量子化 | メモリ消費 | tok/s (生成) | ランタイム |
|---|---|---|---|---|
| RTX 5090 32GB | Q4_K_M | OOM (CPU offload) | 3〜6 | llama.cpp |
| RTX PRO 6000 96GB | Q4_K_M | OOM (一部 offload) | 8〜15 | llama.cpp |
| Mac Studio M3 Ultra 256GB | Q4_K_M | 約 130GB | 24〜30 | MLX |
| Mac Studio M3 Ultra 512GB | Q5 (MLX) | 約 165GB | 20〜26 | MLX |
| MacBook Pro M4 Max 128GB | Q4_K_M | 約 130GB ギリギリ | 5〜10 | MLX |
Hannun は 512GB M3 Ultra で MLX 4-bit Qwen3-235B-A22B を 24 tok/s(272GB 消費)で動かす実演を公開しています。MacStories の早期ベンチでも近い数値です。M4 Max 128GB はメモリ枠ギリギリで「動きはするがコンテキストを長く取れない」ラインです。
CPU offload の速度低下実例
RTX 5090 32GB で DeepSeek-V3 を動かす場合の典型例を分解します。
- 総パラメータ: 400GB (Q4_K_M)
- GPU に乗る分: 28〜30GB(KV キャッシュ用に 2GB 残す)
- CPU offload される分: 370GB+ → DDR5 メモリと NVMe にスワップ
- 結果: アクティブ層の半数以上が CPU 側で計算 → メモリ帯域がボトルネック → 2〜5 tok/s
ik_llama.cpp(高速化 fork)や Unsloth の最適化 GGUF で多少改善しますが、上限は CPU/DRAM 帯域で決まります。DDR5-6400 デュアルチャネルでも 102GB/s 程度、Mac Studio M3 Ultra の Unified Memory 800GB/s には遠く及びません。
正直、RTX 5090 32GB 単体で 100B 超を運用するのは「動作確認できる」レベルで、実用ではありません。Mac Studio の Unified Memory が「GPU と CPU の境界がない」設計なので、同じ「VRAM が足りない」状況でも CPU offload 相当の劣化が起きにくい、という構造上の優位があります。
ランタイム別の速度差
100B 超ではランタイム選択が tok/s に直結します。
- llama.cpp (CUDA / Metal):もっとも汎用。CPU offload を真面目に実装しているので、VRAM が足りないときの「とりあえず動かす」用途で第一選択。
- vLLM:GPU 単体で完結する場合に最速。PagedAttention で KV キャッシュを効率化し、Llama 4 Maverick をマルチGPU で回す法人デプロイで定番。CPU offload は事実上非対応。
- Ollama:llama.cpp ベースのラッパー。
ollama pull deepseek-v3:671b-q4_K_Mで 404GB が降ってくる。運用は楽だが、深いチューニングは llama.cpp 直叩きに譲る。 - MLX:Apple Silicon 専用。M3 Ultra で DeepSeek-V3 / Qwen 3 235B を回す場合の標準。Unified Memory を素直に使い切る設計で、llama.cpp Metal バックエンドより数〜30%速いケースが多い。
- SGLang:バッチ推論前提。並列リクエスト時のスループットで vLLM と並ぶ。
自分の数値が世間より遅いと感じたら、ランタイムを先に確認するのが早道です。同じ M3 Ultra でも MLX と llama.cpp Metal で 20〜30% 違うことがあります。
量子化フォーマットの精度差
100B 超では「Q4 で十分」と簡単に断言しにくい領域です。
| 量子化 | VRAM比 (FP16=100%) | 品質 | 用途 |
|---|---|---|---|
| Q4_K_M | 約 28% | 標準。長文論理がたまに崩れる | 個人・検証 |
| Q5_K_M | 約 35% | Q4_K_M より体感安定 | 実運用ライン |
| Q6_K | 約 40% | Q8 とほぼ区別不能 | 業務エージェント |
| Q8_0 | 約 53% | FP16 とほぼ等価 | 精度が必要な研究 |
| FP8 | 約 50% | Hopper / Blackwell で高速 | NVIDIA 専用最適化 |
DeepSeek-V3 671B Q5_K_M を Mac Studio M3 Ultra 512GB で動かす、という構成が「コストを度外視すれば一番品質が出る」現実的な解です。FP8 は RTX PRO 6000 Blackwell / H100 / B200 で対応するため、法人デプロイ向け。
arxiv の DeepSeek 量子化精度低下分析(arxiv 2505.02390)では、Q4 で MMLU が 1〜2pt 程度落ちる程度、Q5 以上は誤差範囲、と報告されています。コーディングタスクではこの 1〜2pt が体感に効くので、業務エージェント用途では Q5 以上を推奨します。
ランタイムの組み合わせ別「単体で動く / 動かない」マップ
| 構成 | Llama 4 Scout 109B | Llama 4 Maverick 400B | DeepSeek-V3 671B | Qwen 3 235B |
|---|---|---|---|---|
| RTX 5090 32GB | △ offload で動く | × 実用外 | × 実用外 | △ offload で動く |
| RTX PRO 6000 96GB | ○ 余裕 | △ offload | × 実用外 | △ offload で動く |
| Mac Studio M3 Ultra 192GB | ○ 余裕 | × 容量不足 | × 容量不足 | △ ギリギリ |
| Mac Studio M3 Ultra 256GB | ○ 余裕 | ○ 動く | × 容量不足 | ○ 余裕 |
| Mac Studio M3 Ultra 512GB | ○ 余裕 | ○ 余裕 | ○ 動く | ○ 余裕 |
| マルチGPU (4×PRO 6000 = 384GB) | ○ 余裕 | ○ 余裕 | ○ Q4 で動く | ○ 余裕 |
100B 超で「単体ハード1台」を狙うと、選択肢は Mac Studio M3 Ultra に大きく寄ります。NVIDIA で同等の容量を確保するにはマルチGPU が必須で、ホスト・電源・空調まで含めると 500 万円コースになります。
「100B超を動かす意味」のレビュー
ほとんどのユーザーは 100B 超を動かす必要がありません。
- 70B との品質差:MMLU / GPQA / HumanEval などのスコアで 5〜10pt 程度。会話の体感では「ちょっと賢い」止まり。
- コスト差:70B が 1 台 80〜130 万円で動く一方、DeepSeek-V3 / Maverick を 1 台で動かすには Mac Studio M3 Ultra 512GB(約 200 万円)が必要。
- クラウド API との比較:Claude / GPT / Gemini を月 200 ドル使っても 24 ヶ月で 480 万円。Mac Studio M3 Ultra 512GB を「24 時間ローカルで使う」と償却できるが、API 同等の品質と速度を出せるかは別問題。
ローカル運用が割に合うケースは限定的です。
- オフライン環境:機密データ・規制対応で外部 API を使えない法人ユース。
- 大量バッチ:夜間に数万件の推論を回す研究・分析ワークロード。
- 長文コンテキスト:128K〜10M トークンを常時扱う用途(Llama 4 Scout の 10M context が刺さる領域)。
- 学習・研究目的:MoE の挙動を直接観察したい、新しい量子化を試したい等。
それ以外の用途では、Llama 3.3 70B または Qwen 2.5 72B あたりの「2025 年世代の 70B」を Q5/Q8 で運用したほうが、コストと速度のバランスが取れます。詳しくは Llama 3.3 70B GPU別ベンチマーク 2026年版 で扱っています。
数値の見方の注意
ベンチマークは揺れる前提です。引用や比較の際に確認すべき軸を3つだけ。
- コンテキスト長:100B 超は KV キャッシュが急膨張する。短文 2K と長文 32K で speed が半分以下になる。
- 量子化方式の差:「Q4」とだけ書かれた数値は Q4_K_M / Q4_0 / IQ4_XS で 10〜20% 違う。MLX 4-bit と GGUF Q4_K_M も別物。
- ランタイムとバージョン:llama.cpp は四半期で最適化が入る。MLX は月単位で速くなる。半年前の数値は古い前提のことがある。
本記事の数値は 2026年5月時点の公開ベンチに基づきます。半年後にはマルチGPU でも DeepSeek-V3 が 100 tok/s 出ているかもしれません。
VRAM 容量論との関係
100B 超の議論は「速度」より「そもそも乗るか」が支配的です。Mac Studio M3 Ultra 512GB は速度で NVIDIA に劣りますが、DeepSeek-V3 671B を 1 台で動かせる選択肢が他にほぼ無い、という事実だけで存在価値があります。
容量論の詳細は Apple Silicon Unified Memory vs NVIDIA VRAM ローカルLLM 2026年版 と ローカルLLM量子化フォーマット別ベンチマーク 2026年版 で扱っています。3本あわせて読むと、100B 超を扱うときの判断軸が一通り揃います。
入手先・関連商品
当サイトは Amazon.co.jp アソシエイト・プログラムに参加予定です。下記リンク経由で購入された場合、紹介料を受け取ることがあります。読者の負担は増えません。リンクは記事評価とは独立しており、編集判断には影響しません。
100B 超で「単体ハード1台」を狙うときの中核3製品です。RTX PRO 6000 は法人ルート(NPN 経由)の購入が中心、Mac Studio M3 Ultra 512GB は Apple 公式 BTO が確実です。
- NVIDIA RTX PRO 6000 Blackwell を Amazon.co.jp で見る
- Mac Studio M3 Ultra 512GB を Amazon.co.jp で見る
- NVIDIA RTX 5090 を Amazon.co.jp で見る
あなたに合うPCを診断する
用途や予算をもう少し細かく入力すると、3つの候補構成を提案します。
→ 診断スタート