Llama 3.3 70B の Q4 はどのGPUで何 tok/s 出ますか？

本記事の集約では、RTX 5090（32GB）が Q4_K_M で 20〜30 tok/s と単純速度では最速帯です。RTX PRO 6000 Blackwell（96GB）は 25〜35 tok/s かつ Q8/FP16 まで単体で扱える余裕、Mac Studio M3 Ultra は 10〜15 tok/s と速度は譲るものの巨大モデルや長文コンテキストを「乗せる」用途に向きます。RTX 4090（24GB）は 12〜18 tok/s で、容量的には Q4_K_M がギリギリです。いずれも短文プロンプト・llama.cpp 系での公開報告レンジで、iris-lab 実測ではありません。

Llama 3.3 70B Q4_K_M のファイルサイズはどれくらいですか？

本記事の前提表では、Q4_K_M が約40〜43GB、Q8 が約70GB、FP16 が約140GB、24GBに押し込む妥協ラインの Q3_K_M が約32GB です。消費者向けGPUでの実用ラインは Q4_K_M で、重みだけで約40GB あるため、32GB の RTX 5090 から「無理なく乗る」帯に入ります。

24GB VRAM で Llama 3.3 70B は動きますか？

条件付きで動きます。Q4_K_M は約40GBで24GBには乗らないため、約32GBの Q3_K_M まで落とせば押し込めますが、Q3 は長文で論理が時々崩れる妥協ラインです。24GB の RTX 4090 単体では Q4_K_M は KV キャッシュ込みで溢れ、コンテキスト長を切り詰める運用になります。70B を素直に Q4_K_M で回すなら 32GB の RTX 5090 以上が目安です。

Llama 3.3 70B GPU別トークン/秒 2026年版（5090 / PRO 6000 / Mac）

本記事は Amazon.co.jp および各販売店のアフィリエイトリンクを含む場合があります。推奨は性能・コスパ・実機ベンチマーク基準で編集判断しており、提供記事は受け付けていません。詳細はプライバシーポリシーをご覧ください。

Llama 3.3 70B GPU別トークン/秒 2026:RTX 5090 / RTX PRO 6000 / Mac Studio M3 Ultra の3軸比較

結論：Llama 3.3 70B を最速で回したいなら RTX 5090（Q4_K_M で 20〜30 tok/s）。FP16 や Q8 を1台で扱うなら RTX PRO 6000 Blackwell か Mac Studio M3 Ultra。Mac は速度より「巨大モデルが乗る余裕」、NVIDIA は速度と量子化前提の運用、と棲み分けが明確です。

Llama 3.3 70B はMetaが2024年12月に公開した、70B サイズで 405B 並みの性能を出すモデルです。2026年5月時点で AI 開発者の標準テストモデルとして定着し、「自分のGPUで何 tok/s 出るのか」を確かめたいニーズが顕在化しています。本記事では公開ベンチと r/LocalLLaMA / Hugging Face Discussions / 国内 note・Qiita 等の実測報告を横断集約し、現実的に出る速度レンジを整理します。

iris-lab の自前実測ではなく、公開実測の集約ベースである点は最初に明示しておきます。Phase 1 で iris-lab の実機データを追記する前提で、本記事は「世間で報告されている tok/s レンジ」のスナップショットとして読んでください。

Llama 3.3 70B の前提を3秒で

ファイルサイズの目安は次の通りです。

量子化	ファイルサイズ目安	用途
FP16	約 140GB	研究・ファインチューニング前提
Q8	約 70GB	精度を落としたくない実運用
Q4_K_M	約 40〜43GB	個人・小規模法人の実用ライン
Q3_K_M	約 32GB	24GB VRAM に押し込む妥協ライン

「Q4_K_M（実用ライン）」が消費者向けGPU での定番です。Q3 まで落とすと長文での論理が時々崩れる、Q5 まで上げるとほぼ FP16 と区別がつかない、というのが体感のコンセンサスです。量子化ごとの速度・品質トレードオフは「ローカルLLM 量子化ベンチマーク 2026年版」で詳しく扱っています。

どのGPU・SoC にどのサイズのモデルが乗るかを横断で確認したい場合は「VRAM別ローカルLLMモデル早見表 2026年版」も合わせて参照してください。

GPU別トークン/秒（2026年5月時点、Q4_K_M ベース）

「公開ベンチで報告されているレンジ」を 1 つの表にまとめます。短文プロンプト（〜2K context）、llama.cpp 系または同等バックエンドでの数値です。

GPU / SoC	VRAM・Unified Mem	70B Q4_K_M tok/s	70B Q8 tok/s	70B FP16 tok/s
RTX 5090	32GB GDDR7	20〜30	△ VRAM不足	✗
RTX 4090	24GB GDDR6X	12〜18	✗	✗
RTX PRO 6000 Blackwell	96GB GDDR7	25〜35	12〜18	6〜10
Mac Studio M3 Ultra 192GB	192GB Unified	10〜15	6〜10	3〜5
Mac Studio M3 Ultra 512GB	512GB Unified	10〜15	6〜10	3〜5
MacBook Pro M4 Max 128GB	128GB Unified	8〜12	4〜7	✗ 容量ギリギリ

5090 が「単純な速度では一番速いが、Q8 以上はそもそも乗らない」、PRO 6000 が「単体で量子化を選べる唯一の選択肢」、Mac Studio M3 Ultra が「速度を諦めれば FP16 まで素直に動く」、という 3 つのキャラクターに分かれます。

数値は短文プロンプトのデコード速度が中心で、長文のプロンプト処理（プリフィル）は別問題です。プロンプトが 32K になれば NVIDIA も Apple も全体スループットが落ちる、というのは後ろの章で触れます。

量子化精度ごとの判断軸

Q4_K_M（実用ライン）

迷ったらこれ。RTX 5090 単体で 20〜30 tok/s、ChatGPT を体感速度で追い越せる帯です。70B Q4_K_M は重みだけで約 39〜43GB なので、24GB の RTX 4090 単体では KV キャッシュ込みで微妙に溢れ、コンテキスト長を切り詰めて運用することになります。32GB の RTX 5090 から「無理なく乗る」ラインに入ります。

Q8（精度重視）

VRAM が 80GB 級ないと現実的ではありません。RTX PRO 6000 Blackwell（96GB）か、Mac Studio M3 Ultra（192GB / 512GB）が単体で実行できる選択肢です。Q4_K_M との品質差はベンチマークスコアでは数%ですが、長文生成や論理推論の安定感が変わるため「業務エージェントとして 24 時間回す」用途では Q8 を選ぶ価値があります。

FP16（研究・フルファインチューニング前提）

70B FP16 は重みだけで 140GB を超えます。1 台で扱えるのは RTX PRO 6000 Blackwell と Mac Studio M3 Ultra 192GB / 512GB だけです。NVIDIA で複数枚に分散する手もありますが、ホスト・電源・ケースを丸ごと揃える話になり、個人ユースの現実解からは外れます。

バックエンドごとの差

同じGPU でも、推論バックエンドで tok/s が 1.5〜3 倍変わります。

llama.cpp（CUDA / Metal）：もっとも普及。NVIDIA / Apple 両対応で、Q4_K_M の事実上の標準。チューニングは少ないが安定して動きます。
MLX（Apple 公式）：2025 年以降 70B 対応が安定し、Metal バックエンドの llama.cpp と同等〜やや速い領域に来ました。Apple Silicon の Unified Memory をそのまま使い切ります。
vLLM / SGLang：バッチ推論を前提にしたサーバ系。単発の tok/s は llama.cpp と大差ないが、並列リクエストでスループット 2〜3 倍。法人デプロイ向け。
TensorRT-LLM（NVIDIA 専用）：FP4 / FP8 対応で、RTX 5090 や PRO 6000 でさらに加速可能。設定難度はもっとも高いが、ピーク速度が欲しいなら選択肢に入ります。

「自分の数値が世間より遅い」と感じたら、まずバックエンドを疑うのが早道です。llama.cpp デフォルトと TensorRT-LLM では、同じ 5090 でも体感が変わります。

コンテキスト長の影響：32K で6〜7割、128K は別の話

ベンチマーク数値は短文プロンプトでの値です。コンテキストが伸びると KV キャッシュが線形に膨らみ、速度が落ちます。

コンテキスト	速度の目安（対 4K 比）
4K	100%（基準）
32K	約 60〜70%
128K	約 30〜50%（VRAM に乗りきらない場合は急落）

128K context で 70B を回すと、Q4_K_M でも KV キャッシュが 20〜30GB 級になり、RTX 5090 では足りません。Mac Studio M3 Ultra の Unified Memory を最大の長所として使うなら、ここの「巨大コンテキスト」用途が一番映えます。なお同じVRAM容量でも tok/s を最終的に決めるのはメモリ帯域です。その仕組みは「メモリ帯域幅(GB/s)がローカルLLMの tok/sec を決める仕組み 2026年版」で解説しています。

用途別の現実解

用途	現実解
個人開発のコーディング補助	RTX 5090 + Q4_K_M、20〜30 tok/s で十分
業務エージェントとして 24h 回す	RTX PRO 6000 + Q8、品質と発熱の両立
研究・フルファインチューニング	RTX PRO 6000 か Mac Studio M3 Ultra 192GB+
巨大コンテキスト（128K〜）	Mac Studio M3 Ultra（速度より容量を取る）
法人 API 代替 / 並列リクエスト	RTX PRO 6000 + vLLM / SGLang

「とりあえず 70B を高速で回したい」なら 5090、「速度を妥協して FP16 を 1 台で扱いたい」なら Mac Studio、「両方欲しい」なら PRO 6000、という三択です。Mac Studio は重戦車、5090 はスポーツカー、PRO 6000 は両用 SUV、と言い換えても大きく外しません。

価格帯は GPU 単品で次の通りです。実勢価格の詳しい動きは別記事「RTX 5090 vs 4090 vs PRO 6000 — AI用途で選ぶGPU 2026」で扱っています。

RTX 5090：55〜62万円（AIB 抽選販売）
RTX PRO 6000 Blackwell：130〜160万円（B2B / ワークステーション経由）
Mac Studio M3 Ultra 192GB：80〜95万円（Apple 直販）

数値の見方の注意

ベンチマーク値は揺れます。揺れる理由を 3 つだけ挙げます。

短文／長文プロンプトの違い：Twitter / Reddit で見かける「30 tok/s 出た」は短文のデコード速度であることが多く、実利用では 6〜8 割に落ちます。
量子化方式の差：Q4_K_M と Q4_0、IQ4_XS では速度も品質も微妙に違います。「Q4」とだけ書かれた数値は、内訳を確認する価値があります。
バックエンドのバージョン：llama.cpp は四半期ごとに最適化が入ります。半年前のベンチは古い前提のことがあります。

数値を引用するなら、量子化方式・コンテキスト長・バックエンドの 3 点をセットで明示するのが最低ラインです。本記事も、続編で iris-lab 自前実測を追記する際は同じ書式で揃える予定です。

VRAM の容量論との関係

「速度」の話と「そもそも乗るか」の話は別レイヤーです。Mac Studio が遅く見えても、512GB Unified Memory のおかげで「乗る」という事実だけで NVIDIA を超えるシーンがあります。容量の話は別記事「VRAMとは何か。ローカルLLM推論で必要な量の決まり方 2026年版」と「Apple Silicon の Unified Memory vs NVIDIA VRAM 2026年版」で詳しく扱っています。

本記事の「速度」と、容量論の記事を 2 本セットで読むと、GPU 選定の判断軸が立体的に揃います。

入手先・関連商品

当サイトは Amazon.co.jp アソシエイト・プログラムに参加予定です。下記リンク経由で購入された場合、紹介料を受け取ることがあります。読者の負担は増えません。リンクは記事評価とは独立しており、編集判断には影響しません。

NVIDIA GeForce RTX 5090 を Amazon.co.jp で見る — 70B Q4_K_M を 20〜30 tok/s で最速に回す本命。速度重視ならこれ
NVIDIA RTX PRO 6000 Blackwell を Amazon.co.jp で見る — 96GB で Q8/FP16 まで単体で選べる唯一級。業務エージェント・研究向け
Apple Mac Studio M3 Ultra を Apple公式サイトで見る — Unified Memory で巨大モデル・128K 級コンテキストを「乗せる」用途の本命

あなたに合うPCを診断する

用途や予算をもう少し細かく入力すると、3つの候補構成を提案します。

→ 診断スタート