AI開発 ベンチマーク

ローカルLLM 100B超モデル GPU別ベンチマーク 2026年版:Llama 4 / DeepSeek-V3 / Qwen 3 235B を RTX 5090 / PRO 6000 / Mac Studio M3 Ultra で動かす実測 tok/sec

Llama 4 / DeepSeek-V3 / Qwen 3 235B など100Bパラメータ超のローカルLLMを、RTX 5090 / RTX PRO 6000 / Mac Studio M3 Ultra で動かしたトークン/秒を2026年版で実測します。VRAM・Unified Memory の割当量と量子化フォーマット(Q4_K_M / Q5_K_M / Q8_0)による速度差をまとめます。

  • #ローカルLLM
  • #Llama 4
  • #DeepSeek-V3
  • #Qwen 3 235B
  • #RTX 5090
  • #RTX PRO 6000
  • #Mac Studio M3 Ultra
  • #MoE
  • #tok/sec
  • #100B超

本記事は Amazon.co.jp および各販売店のアフィリエイトリンクを含む場合があります。推奨は性能・コスパ・実機ベンチマーク基準で編集判断しており、提供記事は受け付けていません。詳細は プライバシーポリシー をご覧ください。

ローカルLLM 100B超 GPU別ベンチマーク 2026年版:Llama 4 / DeepSeek-V3 / Qwen 3 235B を RTX 5090 / PRO 6000 / Mac Studio M3 Ultra で実測 tok/sec

結論:100B超は「動くハード」が極端に絞られる。Q4_K_M で素直に動くのは事実上 RTX PRO 6000 96GB / Mac Studio M3 Ultra 256GB+ / マルチGPU 構成だけ。RTX 5090 32GB 単体では MoE のアクティブ分しか乗らず、残りは CPU offload で 5 tok/s 前後まで落ちます。DeepSeek-V3 671B を1台で乗せたいなら Mac Studio M3 Ultra 512GB がほぼ唯一の選択肢です。

2025年〜2026年にかけて「100B超のオープン重みモデル」が一気に増えました。Llama 4 Scout / Maverick、DeepSeek-V3、Qwen 3 235B はいずれも MoE(Mixture of Experts)で、アクティブパラメータは 17〜37B と小さく抑えつつ、総パラメータが 100B〜671B に達します。本記事は「総パラメータが大きい=高VRAM必須」という MoE 特有のずれを整理し、2026年5月時点の公開ベンチと実測報告から各 GPU での tok/sec レンジをまとめます。

iris-lab の自前実機ではなく、公開ベンチ・コミュニティ実測報告(r/LocalLLaMA、Hugging Face、Apple 公式 MLX チーム、Hardware Corner 等)の横断集約です。数値は揺れる前提で、出典付きでレンジを示します。

100B超モデルの2026年5月時点のラインナップ

主要4モデル(5系列)を整理します。すべて MoE 構成です。

モデル総パラメータアクティブエキスパート構成公開状況 (2026年5月)
Llama 4 Scout109B17B16E × 17BHugging Face で公開済み
Llama 4 Maverick400B17B128E × 17BHugging Face で公開済み
Llama 4 Behemoth約2T288B16E未公開(teacher model 用途、Meta 訓練中)
DeepSeek-V3 (0324)671B37BMoEHugging Face / Ollama で公開済み
Qwen 3 235B-A22B235B22BMoEHugging Face で公開済み

Behemoth は 2025年4月の Llama 4 発表時点で「訓練中」とされ、Scout / Maverick の codistillation 用の教師モデルという位置づけです。2026年5月時点でも一般公開には至っていません(Meta の公式ブログとサードパーティ各社の解説記事を確認)。

MoE モデル特有の「VRAM要件」のずれ

最初に押さえておくべき MoE の罠が一つあります。

  • 総パラメータ ≠ 推論時に必要な計算量:DeepSeek-V3 はアクティブ 37B なので、計算量とメモリ帯域消費は 37B 級。
  • 総パラメータ = 必要 VRAM:エキスパートは入力ごとにルーティングで切り替わるため、全パラメータをロードしておく必要があります。

つまり「アクティブが軽いから速いが、容量は重い」という非対称な特性です。例えば DeepSeek-V3 Q4_K_M は 約 400GB のファイルになり、これを VRAM / Unified Memory に乗せる必要があります(Ollama 公式の deepseek-v3:671b-q4_K_M パッケージサイズ参照)。

CPU offload を使えば物理的には動きますが、エキスパートが CPU 側に置かれた場合、ルーティングのたびに DRAM ↔ VRAM の転送が走り、速度はおおむね 2〜5 tok/s 程度まで落ちます(llama.cpp Discussions の報告群)。

量子化と必要 VRAM の表

各モデルを実際に「動かす」のに必要なメモリの目安です。出典は Hugging Face のモデルカード、Ollama のパッケージサイズ、apxml の系統的まとめを横断したもの。

モデルQ4_K_MQ5_K_MQ8_0FP16
Llama 4 Scout (109B)約 58GB約 75GB約 110GB約 220GB
Llama 4 Maverick (400B)約 220GB約 280GB約 420GB約 800GB
DeepSeek-V3 (671B)約 400GB約 480GB約 700GB約 1.3TB
Qwen 3 235B-A22B約 130GB約 165GB約 250GB約 470GB

ここに KV キャッシュ(コンテキスト長×アクティブパラメータ依存)が乗ります。10K context で +10〜20GB、64K で +40GB を見ておくと安全です。

GPU別ベンチマーク(tok/sec、Q4_K_M ベース)

公開ベンチを横断して、各モデル × 主要 GPU の組み合わせをまとめます。短文プロンプト(〜2K context)でのデコード速度です。「OOM」は単体 VRAM に乗らず CPU offload が必須、または起動不能のケース。

Llama 4 Scout (109B 総 / 17B アクティブ)

GPU / SoC量子化メモリ消費tok/s (生成)ランタイム
RTX 5090 32GBQ4_K_MOOM (offload 必須)8〜15llama.cpp
RTX PRO 6000 96GBQ4_K_M約 65GB30〜45llama.cpp / vLLM
Mac Studio M3 Ultra 192GBQ4_K_M約 65GB18〜25MLX
Mac Studio M3 Ultra 256GBQ4_K_M約 65GB18〜25MLX

Hardware Corner の M3 Ultra 実機テストでは Scout が 10K context で 21.6 tok/s、Maverick が 24.8 tok/s と報告されています。Scout より総パラメータが大きい Maverick の方が速い、というのは「エキスパート数が多いほどアクティブ層のルーティングが安定して GPU をフル稼働させやすい」という MoE 実装側の事情で、Llama 4 系の特徴です。

Llama 4 Maverick (400B 総 / 17B アクティブ)

GPU / SoC量子化メモリ消費tok/s (生成)ランタイム
RTX 5090 32GBQ4_K_MOOM (大規模 offload)1〜3llama.cpp
RTX PRO 6000 96GBQ4_K_MOOM (offload 必須)4〜8llama.cpp
Mac Studio M3 Ultra 256GBQ4_K_M約 220GB20〜28MLX
Mac Studio M3 Ultra 512GBQ4_K_M約 220GB20〜28MLX

Maverick の 400B は単体 GPU では PRO 6000 96GB ですら乗りません。Mac Studio M3 Ultra 256GB なら Q4_K_M で 220GB 消費、残り 36GB を KV キャッシュとシステム用に使う構成になります。

DeepSeek-V3 (671B 総 / 37B アクティブ)

GPU / SoC量子化メモリ消費tok/s (生成)ランタイム
RTX 5090 32GBQ4_K_MOOM (CPU offload 大半)2〜5llama.cpp
RTX 4090 24GBQ4_K_MOOM (CPU offload 大半)1〜3llama.cpp
RTX PRO 6000 96GBQ4_K_MOOM (offload 必須)4〜8llama.cpp
Mac Studio M3 Ultra 512GBQ4_K_M (MLX 4-bit)約 400GB (16K で 466GB)約 20〜21MLX
マルチGPU 8×A100 80GBQ4_K_M約 400GB30〜50vLLM

DeepSeek-V3 を「1台で」動かせる消費者向け(に近い)ハードは Mac Studio M3 Ultra 512GB が事実上唯一です。Awni Hannun(Apple MLX チーム)の公開ベンチで MLX 4-bit が 20 tok/s 超を出した、というのが現時点の代表値(2025年3月、VentureBeat / Slashdot / Hardware Corner 等が一斉に報じた)。16K コンテキストではメモリ消費が 466GB まで膨らみ、512GB 構成の必然性がここで効いてきます。

Qwen 3 235B-A22B (235B 総 / 22B アクティブ)

GPU / SoC量子化メモリ消費tok/s (生成)ランタイム
RTX 5090 32GBQ4_K_MOOM (CPU offload)3〜6llama.cpp
RTX PRO 6000 96GBQ4_K_MOOM (一部 offload)8〜15llama.cpp
Mac Studio M3 Ultra 256GBQ4_K_M約 130GB24〜30MLX
Mac Studio M3 Ultra 512GBQ5 (MLX)約 165GB20〜26MLX
MacBook Pro M4 Max 128GBQ4_K_M約 130GB ギリギリ5〜10MLX

Hannun は 512GB M3 Ultra で MLX 4-bit Qwen3-235B-A22B を 24 tok/s(272GB 消費)で動かす実演を公開しています。MacStories の早期ベンチでも近い数値です。M4 Max 128GB はメモリ枠ギリギリで「動きはするがコンテキストを長く取れない」ラインです。

CPU offload の速度低下実例

RTX 5090 32GB で DeepSeek-V3 を動かす場合の典型例を分解します。

  • 総パラメータ: 400GB (Q4_K_M)
  • GPU に乗る分: 28〜30GB(KV キャッシュ用に 2GB 残す)
  • CPU offload される分: 370GB+ → DDR5 メモリと NVMe にスワップ
  • 結果: アクティブ層の半数以上が CPU 側で計算 → メモリ帯域がボトルネック → 2〜5 tok/s

ik_llama.cpp(高速化 fork)や Unsloth の最適化 GGUF で多少改善しますが、上限は CPU/DRAM 帯域で決まります。DDR5-6400 デュアルチャネルでも 102GB/s 程度、Mac Studio M3 Ultra の Unified Memory 800GB/s には遠く及びません。

正直、RTX 5090 32GB 単体で 100B 超を運用するのは「動作確認できる」レベルで、実用ではありません。Mac Studio の Unified Memory が「GPU と CPU の境界がない」設計なので、同じ「VRAM が足りない」状況でも CPU offload 相当の劣化が起きにくい、という構造上の優位があります。

ランタイム別の速度差

100B 超ではランタイム選択が tok/s に直結します。

  • llama.cpp (CUDA / Metal):もっとも汎用。CPU offload を真面目に実装しているので、VRAM が足りないときの「とりあえず動かす」用途で第一選択。
  • vLLM:GPU 単体で完結する場合に最速。PagedAttention で KV キャッシュを効率化し、Llama 4 Maverick をマルチGPU で回す法人デプロイで定番。CPU offload は事実上非対応。
  • Ollama:llama.cpp ベースのラッパー。ollama pull deepseek-v3:671b-q4_K_M で 404GB が降ってくる。運用は楽だが、深いチューニングは llama.cpp 直叩きに譲る。
  • MLX:Apple Silicon 専用。M3 Ultra で DeepSeek-V3 / Qwen 3 235B を回す場合の標準。Unified Memory を素直に使い切る設計で、llama.cpp Metal バックエンドより数〜30%速いケースが多い。
  • SGLang:バッチ推論前提。並列リクエスト時のスループットで vLLM と並ぶ。

自分の数値が世間より遅いと感じたら、ランタイムを先に確認するのが早道です。同じ M3 Ultra でも MLX と llama.cpp Metal で 20〜30% 違うことがあります。

量子化フォーマットの精度差

100B 超では「Q4 で十分」と簡単に断言しにくい領域です。

量子化VRAM比 (FP16=100%)品質用途
Q4_K_M約 28%標準。長文論理がたまに崩れる個人・検証
Q5_K_M約 35%Q4_K_M より体感安定実運用ライン
Q6_K約 40%Q8 とほぼ区別不能業務エージェント
Q8_0約 53%FP16 とほぼ等価精度が必要な研究
FP8約 50%Hopper / Blackwell で高速NVIDIA 専用最適化

DeepSeek-V3 671B Q5_K_M を Mac Studio M3 Ultra 512GB で動かす、という構成が「コストを度外視すれば一番品質が出る」現実的な解です。FP8 は RTX PRO 6000 Blackwell / H100 / B200 で対応するため、法人デプロイ向け。

arxiv の DeepSeek 量子化精度低下分析(arxiv 2505.02390)では、Q4 で MMLU が 1〜2pt 程度落ちる程度、Q5 以上は誤差範囲、と報告されています。コーディングタスクではこの 1〜2pt が体感に効くので、業務エージェント用途では Q5 以上を推奨します。

ランタイムの組み合わせ別「単体で動く / 動かない」マップ

構成Llama 4 Scout 109BLlama 4 Maverick 400BDeepSeek-V3 671BQwen 3 235B
RTX 5090 32GB△ offload で動く× 実用外× 実用外△ offload で動く
RTX PRO 6000 96GB○ 余裕△ offload× 実用外△ offload で動く
Mac Studio M3 Ultra 192GB○ 余裕× 容量不足× 容量不足△ ギリギリ
Mac Studio M3 Ultra 256GB○ 余裕○ 動く× 容量不足○ 余裕
Mac Studio M3 Ultra 512GB○ 余裕○ 余裕○ 動く○ 余裕
マルチGPU (4×PRO 6000 = 384GB)○ 余裕○ 余裕○ Q4 で動く○ 余裕

100B 超で「単体ハード1台」を狙うと、選択肢は Mac Studio M3 Ultra に大きく寄ります。NVIDIA で同等の容量を確保するにはマルチGPU が必須で、ホスト・電源・空調まで含めると 500 万円コースになります。

「100B超を動かす意味」のレビュー

ほとんどのユーザーは 100B 超を動かす必要がありません。

  • 70B との品質差:MMLU / GPQA / HumanEval などのスコアで 5〜10pt 程度。会話の体感では「ちょっと賢い」止まり。
  • コスト差:70B が 1 台 80〜130 万円で動く一方、DeepSeek-V3 / Maverick を 1 台で動かすには Mac Studio M3 Ultra 512GB(約 200 万円)が必要。
  • クラウド API との比較:Claude / GPT / Gemini を月 200 ドル使っても 24 ヶ月で 480 万円。Mac Studio M3 Ultra 512GB を「24 時間ローカルで使う」と償却できるが、API 同等の品質と速度を出せるかは別問題。

ローカル運用が割に合うケースは限定的です。

  1. オフライン環境:機密データ・規制対応で外部 API を使えない法人ユース。
  2. 大量バッチ:夜間に数万件の推論を回す研究・分析ワークロード。
  3. 長文コンテキスト:128K〜10M トークンを常時扱う用途(Llama 4 Scout の 10M context が刺さる領域)。
  4. 学習・研究目的:MoE の挙動を直接観察したい、新しい量子化を試したい等。

それ以外の用途では、Llama 3.3 70B または Qwen 2.5 72B あたりの「2025 年世代の 70B」を Q5/Q8 で運用したほうが、コストと速度のバランスが取れます。詳しくは Llama 3.3 70B GPU別ベンチマーク 2026年版 で扱っています。

数値の見方の注意

ベンチマークは揺れる前提です。引用や比較の際に確認すべき軸を3つだけ。

  1. コンテキスト長:100B 超は KV キャッシュが急膨張する。短文 2K と長文 32K で speed が半分以下になる。
  2. 量子化方式の差:「Q4」とだけ書かれた数値は Q4_K_M / Q4_0 / IQ4_XS で 10〜20% 違う。MLX 4-bit と GGUF Q4_K_M も別物。
  3. ランタイムとバージョン:llama.cpp は四半期で最適化が入る。MLX は月単位で速くなる。半年前の数値は古い前提のことがある。

本記事の数値は 2026年5月時点の公開ベンチに基づきます。半年後にはマルチGPU でも DeepSeek-V3 が 100 tok/s 出ているかもしれません。

VRAM 容量論との関係

100B 超の議論は「速度」より「そもそも乗るか」が支配的です。Mac Studio M3 Ultra 512GB は速度で NVIDIA に劣りますが、DeepSeek-V3 671B を 1 台で動かせる選択肢が他にほぼ無い、という事実だけで存在価値があります。

容量論の詳細は Apple Silicon Unified Memory vs NVIDIA VRAM ローカルLLM 2026年版ローカルLLM量子化フォーマット別ベンチマーク 2026年版 で扱っています。3本あわせて読むと、100B 超を扱うときの判断軸が一通り揃います。

入手先・関連商品

当サイトは Amazon.co.jp アソシエイト・プログラムに参加予定です。下記リンク経由で購入された場合、紹介料を受け取ることがあります。読者の負担は増えません。リンクは記事評価とは独立しており、編集判断には影響しません。

100B 超で「単体ハード1台」を狙うときの中核3製品です。RTX PRO 6000 は法人ルート(NPN 経由)の購入が中心、Mac Studio M3 Ultra 512GB は Apple 公式 BTO が確実です。


あなたに合うPCを診断する

用途や予算をもう少し細かく入力すると、3つの候補構成を提案します。

診断スタート

関連記事