AI開発 ベンチマーク

Llama 3.3 70B GPU別トークン/秒 2026年版(5090 / PRO 6000 / Mac)

Llama 3.3 70B Q4 を実際に動かしたとき、RTX 5090 / RTX PRO 6000 Blackwell / Mac Studio M3 Ultra でトークン/秒はどれだけ違うのか。公開ベンチと実測報告を横断集約し、量子化精度・コンテキスト長・バックエンドごとの速度差を整理しました。

  • #Llama 3.3
  • #ローカルLLM
  • #RTX 5090
  • #RTX PRO 6000
  • #Mac Studio
  • #M3 Ultra
  • #トークン毎秒
  • #GPUベンチマーク

本記事は Amazon.co.jp および各販売店のアフィリエイトリンクを含む場合があります。推奨は性能・コスパ・実機ベンチマーク基準で編集判断しており、提供記事は受け付けていません。詳細は プライバシーポリシー をご覧ください。

Llama 3.3 70B GPU別トークン/秒 2026:RTX 5090 / RTX PRO 6000 / Mac Studio M3 Ultra の3軸比較

結論:Llama 3.3 70B を最速で回したいなら RTX 5090(Q4_K_M で 20〜30 tok/s)。FP16 や Q8 を1台で扱うなら RTX PRO 6000 Blackwell か Mac Studio M3 Ultra。Mac は速度より「巨大モデルが乗る余裕」、NVIDIA は速度と量子化前提の運用、と棲み分けが明確です。

Llama 3.3 70B はMetaが2024年12月に公開した、70B サイズで 405B 並みの性能を出すモデルです。2026年5月時点で AI 開発者の標準テストモデルとして定着し、「自分のGPUで何 tok/s 出るのか」を確かめたいニーズが顕在化しています。本記事では公開ベンチと r/LocalLLaMA / Hugging Face Discussions / 国内 note・Qiita 等の実測報告を横断集約し、現実的に出る速度レンジを整理します。

iris-lab の自前実測ではなく、公開実測の集約ベースである点は最初に明示しておきます。Phase 1 で iris-lab の実機データを追記する前提で、本記事は「世間で報告されている tok/s レンジ」のスナップショットとして読んでください。

Llama 3.3 70B の前提を3秒で

ファイルサイズの目安は次の通りです。

量子化ファイルサイズ目安用途
FP16約 140GB研究・ファインチューニング前提
Q8約 70GB精度を落としたくない実運用
Q4_K_M約 40〜43GB個人・小規模法人の実用ライン
Q3_K_M約 32GB24GB VRAM に押し込む妥協ライン

「Q4_K_M(実用ライン)」が消費者向けGPU での定番です。Q3 まで落とすと長文での論理が時々崩れる、Q5 まで上げるとほぼ FP16 と区別がつかない、というのが体感のコンセンサスです。

GPU別トークン/秒(2026年5月時点、Q4_K_M ベース)

「公開ベンチで報告されているレンジ」を 1 つの表にまとめます。短文プロンプト(〜2K context)、llama.cpp 系または同等バックエンドでの数値です。

GPU / SoCVRAM・Unified Mem70B Q4_K_M tok/s70B Q8 tok/s70B FP16 tok/s
RTX 509032GB GDDR720〜30△ VRAM不足
RTX 409024GB GDDR6X12〜18
RTX PRO 6000 Blackwell96GB GDDR725〜3512〜186〜10
Mac Studio M3 Ultra 192GB192GB Unified10〜156〜103〜5
Mac Studio M3 Ultra 512GB512GB Unified10〜156〜103〜5
MacBook Pro M4 Max 128GB128GB Unified8〜124〜7✗ 容量ギリギリ

5090 が「単純な速度では一番速いが、Q8 以上はそもそも乗らない」、PRO 6000 が「単体で量子化を選べる唯一の選択肢」、Mac Studio M3 Ultra が「速度を諦めれば FP16 まで素直に動く」、という 3 つのキャラクターに分かれます。

数値は短文プロンプトのデコード速度が中心で、長文のプロンプト処理(プリフィル)は別問題です。プロンプトが 32K になれば NVIDIA も Apple も全体スループットが落ちる、というのは後ろの章で触れます。

量子化精度ごとの判断軸

Q4_K_M(実用ライン)

迷ったらこれ。RTX 5090 単体で 20〜30 tok/s、ChatGPT を体感速度で追い越せる帯です。70B Q4_K_M は重みだけで約 39〜43GB なので、24GB の RTX 4090 単体では KV キャッシュ込みで微妙に溢れ、コンテキスト長を切り詰めて運用することになります。32GB の RTX 5090 から「無理なく乗る」ラインに入ります。

Q8(精度重視)

VRAM が 80GB 級ないと現実的ではありません。RTX PRO 6000 Blackwell(96GB)か、Mac Studio M3 Ultra(192GB / 512GB)が単体で実行できる選択肢です。Q4_K_M との品質差はベンチマークスコアでは数%ですが、長文生成や論理推論の安定感が変わるため「業務エージェントとして 24 時間回す」用途では Q8 を選ぶ価値があります。

FP16(研究・フルファインチューニング前提)

70B FP16 は重みだけで 140GB を超えます。1 台で扱えるのは RTX PRO 6000 Blackwell と Mac Studio M3 Ultra 192GB / 512GB だけです。NVIDIA で複数枚に分散する手もありますが、ホスト・電源・ケースを丸ごと揃える話になり、個人ユースの現実解からは外れます。

バックエンドごとの差

同じGPU でも、推論バックエンドで tok/s が 1.5〜3 倍変わります。

  • llama.cpp(CUDA / Metal):もっとも普及。NVIDIA / Apple 両対応で、Q4_K_M の事実上の標準。チューニングは少ないが安定して動きます。
  • MLX(Apple 公式):2025 年以降 70B 対応が安定し、Metal バックエンドの llama.cpp と同等〜やや速い領域に来ました。Apple Silicon の Unified Memory をそのまま使い切ります。
  • vLLM / SGLang:バッチ推論を前提にしたサーバ系。単発の tok/s は llama.cpp と大差ないが、並列リクエストでスループット 2〜3 倍。法人デプロイ向け。
  • TensorRT-LLM(NVIDIA 専用):FP4 / FP8 対応で、RTX 5090 や PRO 6000 でさらに加速可能。設定難度はもっとも高いが、ピーク速度が欲しいなら選択肢に入ります。

「自分の数値が世間より遅い」と感じたら、まずバックエンドを疑うのが早道です。llama.cpp デフォルトと TensorRT-LLM では、同じ 5090 でも体感が変わります。

コンテキスト長の影響:32K で6〜7割、128K は別の話

ベンチマーク数値は短文プロンプトでの値です。コンテキストが伸びると KV キャッシュが線形に膨らみ、速度が落ちます。

コンテキスト速度の目安(対 4K 比)
4K100%(基準)
32K約 60〜70%
128K約 30〜50%(VRAM に乗りきらない場合は急落)

128K context で 70B を回すと、Q4_K_M でも KV キャッシュが 20〜30GB 級になり、RTX 5090 では足りません。Mac Studio M3 Ultra の Unified Memory を最大の長所として使うなら、ここの「巨大コンテキスト」用途が一番映えます。

用途別の現実解

用途現実解
個人開発のコーディング補助RTX 5090 + Q4_K_M、20〜30 tok/s で十分
業務エージェントとして 24h 回すRTX PRO 6000 + Q8、品質と発熱の両立
研究・フルファインチューニングRTX PRO 6000 か Mac Studio M3 Ultra 192GB+
巨大コンテキスト(128K〜)Mac Studio M3 Ultra(速度より容量を取る)
法人 API 代替 / 並列リクエストRTX PRO 6000 + vLLM / SGLang

「とりあえず 70B を高速で回したい」なら 5090、「速度を妥協して FP16 を 1 台で扱いたい」なら Mac Studio、「両方欲しい」なら PRO 6000、という三択です。Mac Studio は重戦車、5090 はスポーツカー、PRO 6000 は両用 SUV、と言い換えても大きく外しません。

価格帯は GPU 単品で次の通りです。実勢価格の詳しい動きは別記事「RTX 5090 vs 4090 vs PRO 6000 — AI用途で選ぶGPU 2026」で扱っています。

  • RTX 5090:55〜62万円(AIB 抽選販売)
  • RTX PRO 6000 Blackwell:130〜160万円(B2B / ワークステーション経由)
  • Mac Studio M3 Ultra 192GB:80〜95万円(Apple 直販)

RTX 5090 を Amazon で見る

数値の見方の注意

ベンチマーク値は揺れます。揺れる理由を 3 つだけ挙げます。

  1. 短文/長文プロンプトの違い:Twitter / Reddit で見かける「30 tok/s 出た」は短文のデコード速度であることが多く、実利用では 6〜8 割に落ちます。
  2. 量子化方式の差:Q4_K_M と Q4_0、IQ4_XS では速度も品質も微妙に違います。「Q4」とだけ書かれた数値は、内訳を確認する価値があります。
  3. バックエンドのバージョン:llama.cpp は四半期ごとに最適化が入ります。半年前のベンチは古い前提のことがあります。

数値を引用するなら、量子化方式・コンテキスト長・バックエンドの 3 点をセットで明示するのが最低ラインです。本記事も、続編で iris-lab 自前実測を追記する際は同じ書式で揃える予定です。

VRAM の容量論との関係

「速度」の話と「そもそも乗るか」の話は別レイヤーです。Mac Studio が遅く見えても、512GB Unified Memory のおかげで「乗る」という事実だけで NVIDIA を超えるシーンがあります。容量の話は別記事「VRAMとは何か。ローカルLLM推論で必要な量の決まり方 2026年版」と「Apple Silicon の Unified Memory vs NVIDIA VRAM 2026年版」で詳しく扱っています。

本記事の「速度」と、容量論の記事を 2 本セットで読むと、GPU 選定の判断軸が立体的に揃います。


あなたに合うPCを診断する

用途や予算をもう少し細かく入力すると、3つの候補構成を提案します。

診断スタート

関連記事