AI開発 ベンチマーク

ローカルLLM 量子化フォーマット別 推論速度ベンチマーク 2026年版:Q4_K_M / Q5_K_M / Q8_0 / FP16 の体感差

同一GPU・同一モデル(Llama 3.3 70B / Qwen 2.5 32B)で量子化フォーマットを Q4_K_M・Q5_K_M・Q8_0・FP16 と振り、トークン/秒・VRAM 占有量・体感品質の差を実測。どの量子化が実用的かを判断する基準を示します。

  • #ローカルLLM
  • #量子化
  • #GGUF
  • #Q4_K_M
  • #Q5_K_M
  • #Q8_0
  • #FP16
  • #llama.cpp
  • #Llama 3.3
  • #Qwen 2.5

本記事は Amazon.co.jp および各販売店のアフィリエイトリンクを含む場合があります。推奨は性能・コスパ・実機ベンチマーク基準で編集判断しており、提供記事は受け付けていません。詳細は プライバシーポリシー をご覧ください。

ローカルLLM 量子化ベンチ 2026:Q4_K_M / Q5_K_M / Q8_0 / FP16 のトークン秒とVRAM占有量を比較

結論:迷ったら Q5_K_M。Q4_K_M はサイズ最小だがコード生成や論理推論でわずかに落ちる。Q5_K_M は Q4 比 VRAM +15% / 速度 -10% で品質が体感ほぼ FP16 に並び、コスパ最良。Q8_0 はほぼ FP16 と区別がつかず、80GB 級 VRAM がある人だけの選択肢。FP16 は研究・ファインチューニング前提で、推論だけなら Q8_0 で十分です。

ローカル LLM を動かすとき、最初に決めるのは「どのモデルを使うか」、次に決めるのは「どの量子化を選ぶか」です。Q4_K_M・Q5_K_M・Q8_0・FP16 と並ぶ選択肢は、トークン/秒・VRAM 占有量・出力品質の 3 軸でトレードオフし、用途で最適解が変わります。本記事では公開ベンチマークと r/LocalLLaMA / GitHub Issues / 国内 Qiita / note の実測報告を横断集約し、Llama 3.3 70B と Qwen 2.5 32B を題材に量子化フォーマット別の速度・VRAM・品質を整理します。

iris-lab の自前実測ではなく公開実測の集約ベースである点は最初に明示します。Phase 1 で iris-lab の実機データを追記する前提で、本記事は「2026年5月時点で世間が報告している量子化別の挙動」のスナップショットとして読んでください。

3 行で知る GGUF 量子化フォーマット

GGUF は llama.cpp / Ollama / LM Studio で使われる量子化済みモデルの標準フォーマットです。フォーマット名に出てくる Q4 / Q5 / Q6 / Q8 はビット数を、K_M / K_S / 0 は量子化方式の細かい設定を示します。

フォーマットビット数概要
Q4_K_M4bit(K-quant)重要レイヤを 5/6bit に底上げした「中庸」プリセット
Q4_K_S4bit(K-quant)M より軽量。容量はわずかに小さく品質もわずかに落ちる
Q5_K_M5bit(K-quant)Q4 より +15% 容量で品質が体感的に大きく向上
Q6_K6bitQ5 と Q8 の中間。あまり使われない
Q8_08bit(線形量子化)FP16 とほぼ区別がつかない品質。サイズ約半分
FP1616bit(半精度)量子化なしの本物。サイズ最大

K-quant(K_M / K_S)は「重要な投影層(attention の Q/K/V と FFN)だけ高いビット数を割り当て、それ以外を低いビット数に落とす」という仕組みで、純粋な Q4_0 / Q5_0 より同じビット数で品質が上がります。「Q4_K_M を選ぶ」は実質的に「平均 4.5bit 程度の K-quant を選ぶ」と思って大きく外しません。

詳しい背景は「VRAMとは何か。ローカルLLM推論で必要な量の決まり方 2026年版」の量子化セクションでも触れています。本記事はその実測値・体感差に踏み込む位置づけです。

ベンチ前提:モデル・GPU・バックエンド

公開ベンチで揃いやすい組み合わせに絞って整理します。

  • モデル:Llama 3.3 70B / Qwen 2.5 32B Instruct
  • GPU / SoC:RTX 5090(32GB GDDR7)/ RTX PRO 6000 Blackwell(96GB GDDR7 ECC)/ Mac Studio M3 Ultra 192GB
  • バックエンド:llama.cpp(CUDA / Metal)、b5000 系(2026年4月時点)
  • コンテキスト:4K(短文プロンプトのデコード速度を取る)
  • 数値出典:r/LocalLLaMA / Hugging Face Discussions の実測報告 + ggerganov/llama.cpp 公式ベンチ集計

ベンチ値の揺れは ±15% 程度の幅で読んでください。バックエンドのバージョン・CUDA / cuDNN・OS スケジューラ次第で同じハード・同じモデルでも変動します。

Llama 3.3 70B:量子化別トークン/秒と VRAM

量子化ファイル sizeRTX 5090(32GB)RTX PRO 6000(96GB)M3 Ultra 192GB
Q4_K_M約 42GB△ VRAM ギリ(KV含めて 30GB前後) / 25〜30 tok/s◎ 28〜35 tok/s〇 11〜15 tok/s
Q5_K_M約 50GB✗ VRAM 不足◎ 22〜28 tok/s〇 9〜13 tok/s
Q8_0約 75GB〇 12〜18 tok/s〇 6〜10 tok/s
FP16約 140GB△ 6〜10 tok/s〇 3〜5 tok/s

「✗ VRAM 不足」は本体重みだけで GPU メモリに乗りきらない、または KV キャッシュ込みでオフロード前提になり実用速度を出せない領域です。RTX 5090(32GB)は Llama 3.3 70B では Q4_K_M が現実的な唯一の選択で、Q5_K_M ですら 4K context でも溢れます。

RTX PRO 6000(96GB)は Q5_K_M まで快適、Q8_0 で 12〜18 tok/s と「業務エージェントとして 24h 回す」用途に届きます。Mac Studio M3 Ultra は速度を諦めれば Q8_0・FP16 まで素直に動く稀少な機種です。

数値の元になっている Llama 3.3 70B の GPU 別速度の全体像は別記事「Llama 3.3 70B GPU別トークン/秒 2026年版」で扱っています。本記事は「同じ GPU で量子化を振った時の差」に絞った内容です。

Qwen 2.5 32B:32B 級は 24GB GPU で量子化を選べる

70B より一段下の 32B クラスは、24GB / 32GB GPU で量子化フォーマットを自由に選べる「比較が分かりやすい」サイズです。

量子化ファイル sizeRTX 4090(24GB)RTX 5090(32GB)M3 Ultra 192GB
Q4_K_M約 19GB◎ 45〜55 tok/s◎ 60〜75 tok/s〇 22〜28 tok/s
Q5_K_M約 23GB△ KV 込みでギリ◎ 55〜65 tok/s〇 19〜25 tok/s
Q8_0約 34GB△ KV 込みで詰まる〇 13〜18 tok/s
FP16約 65GB〇 7〜11 tok/s

32B サイズだと RTX 5090 でも Q5_K_M が現実的に運用できます。Q4_K_M との品質差は短いコード補完では出にくく、長文の論理推論や多段の関数呼び出しで「Q5 のほうが安定」と感じる人が多いです。

RTX 4090 で 32B Q5 を使いたい人は、コンテキスト 2K に絞れば回る場合もあります。「24GB で 32B Q5、32GB で 32B Q8」のどちらが妥当かは、実利用のコンテキスト長次第になります。

品質差:perplexity と「体感」の橋渡し

ベンチ論文や Hugging Face 上のテストで報告されている、Llama 70B 級の量子化別 perplexity 劣化の目安は次の通りです(WikiText 2 / C4 ベース、公開値の集約)。

量子化perplexity 劣化(対 FP16)体感の傾向
Q4_K_M+0.05〜+0.10短文ではほぼ区別つかず。長文・論理推論でたまに崩れる
Q5_K_M+0.02〜+0.05体感は FP16 とほぼ同じ。コード生成も安定
Q8_0+0.005〜+0.02計測でも体感でも FP16 と区別困難
FP160(基準)量子化なし

「Q4_K_M は -1〜-2 perplexity 程度の劣化」は世間で語られがちですが、公開ベンチを集約する限り 70B 級では +0.05〜+0.10 程度(perplexity の絶対値で 0.1 未満)の上昇に収まります。これは長文生成で 100 トークンに 1 回くらい微妙な選択ミスが起きる、というレベルの差で、コード補完や雑談用途では気づかないことが多いです。

逆に、Q5_K_M を選ぶ価値が出るのは次の用途です。

  • 長いコンテキスト(16K 以上)での論理推論
  • 多段の関数呼び出し・JSON 厳密フォーマット出力
  • コードリファクタリングなど「全体構造の理解」が要る作業
  • 業務エージェントとして安定運用

短いコード補完・チャットでは Q4_K_M で十分、業務・長文では Q5_K_M、研究なら Q8_0、というのが 2026年5月時点の業界感です。

VRAM 計算式:本体 + KV キャッシュで決まる

量子化を選ぶ最大の制約は VRAM です。必要量は「重み」+「KV キャッシュ」で決まります。

必要 VRAM ≒ 重みファイルサイズ + KV キャッシュ
KV キャッシュ ≒ 2 × layers × heads × head_dim × context_length × bytes

Llama 3.3 70B(80 layers / 8 KV heads / 128 head_dim、FP16 KV)の場合:

  • 4K context:KV 約 5.2GB
  • 16K context:KV 約 21GB
  • 32K context:KV 約 42GB
  • 128K context:KV 約 168GB

たとえば「Q4_K_M(42GB)+ 32K context(42GB)= 84GB」となり、RTX PRO 6000(96GB)が「ギリギリ乗る」ライン、RTX 5090(32GB)では完全にアウトです。KV キャッシュを INT8 量子化すれば半減、INT4 まで落とせばさらに半減できますが、品質劣化と引き換えになります。

「Q4 / Q5 で本体は乗ったのに context を伸ばすと急に動かなくなる」のはこの KV キャッシュが原因です。VRAM 計算は本体だけでなく context 長まで一緒に見積もるのが鉄則です。

バックエンドごとの相性

llama.cpp 系以外の選択肢も含めて、量子化フォーマットと推論バックエンドの相性を整理します。

バックエンド得意な量子化備考
llama.cpp(CUDA / Metal)Q4_K_M / Q5_K_M / Q8_0GGUF の標準実装。最も普及
OllamaGGUF 全般llama.cpp ベースの GUI / API ラッパー
MLX(Apple 専用)4bit / 6bit / 8bitApple Silicon の Unified Memory を活かす
vLLMAWQ / GPTQ(4bit)/ FP16サーバ用途・バッチ推論で速い
TensorRT-LLMFP4 / FP8 / FP16NVIDIA 専用、設定難度高い。ピーク速度狙い
ExLlamaV2EXL2(カスタム量子化)4090 / 5090 で速度を出したい人向け

「GGUF を選ぶなら llama.cpp / Ollama / LM Studio」「サーバ用途で AWQ を使うなら vLLM」「Apple Silicon で速度を出すなら MLX」の三択が 2026年5月の現実です。同じ Q4 でも GGUF Q4_K_M、AWQ 4bit、EXL2 4.0bpw で性能特性は微妙に異なります。

用途別の現実解

ここまでをまとめて、量子化選びの実用フローを 5 つの用途で示します。

用途推奨 GPU推奨量子化理由
個人のコード補完(〜32B)RTX 4090 / 5070 TiQ4_K_M速度優先、品質差は気にならない
長文の論理推論(〜32B)RTX 5090Q5_K_M32B Q5 が VRAM に余裕で乗る
70B を 1 枚で快適にRTX 5090Q4_K_M32GB に「ギリ乗る」唯一の組合せ
70B を業務エージェントにRTX PRO 6000Q5_K_M / Q8_0品質と発熱の両立
研究・ファインチューニングRTX PRO 6000 / Mac StudioFP16学習・蒸留には量子化なしが安全

「迷ったら Q5_K_M、ただし 70B + 5090 の組合せだけは Q4_K_M」が 2026年5月時点で最も外しません。

よくある誤解 3 つ

  1. 「Q4 と Q8 で perplexity が劇的に違う」:70B 級では +0.05〜+0.10 程度の差で、短文ではほぼ気づきません
  2. 「Q8 にすれば FP16 と全く同じ」:ほぼ同じだが、ファインチューニング・蒸留などモデルそのものを再学習する用途では FP16 が安全
  3. 「量子化を上げれば速度も上がる」:実は逆。Q8 は Q4 より遅く、メモリ帯域が重みデータでより多く埋まるため tok/s は落ちます

特に 3 は誤解されがちです。「品質を上げる代わりに速度を諦める」のが量子化の本質で、Q4 → Q5 → Q8 → FP16 と進むほど速度は落ちます(ただし FP16 はネイティブ Tensor Core を活かせる場合があり、Q8 とほぼ同等速度のことも)。

量子化を選ぶ前にモデルサイズを再検討する

「70B Q4 で粘るより、32B Q5 を選ぶ方が結果的に快適」というのが、2026年5月の実用感です。Qwen 2.5 32B / Phi-4 14B / Gemma 2 27B 等の中型モデルは、量子化に余裕を持って選べる分、出力安定性で 70B Q4 を上回るケースが珍しくありません。

「動かしたいモデルのサイズが GPU の VRAM 容量に対して大きすぎる」と感じたら、量子化を下げる前にモデルサイズを 1 ランク下げる選択肢を検討してください。32B Q5 + 5090 のような「サイズと量子化のバランス取れた組合せ」が、結果的に体感速度・体感品質の両方で勝つことが多いです。

ハード側の最低スペックは別記事「ローカルLLMを動かすPCの最低スペック 2026年版」で扱っています。本記事の量子化選びと併せて読むと、「自分のハードでどのモデルをどの量子化で回すか」が立体的に決まります。

RTX 5090 を Amazon で見る

まとめ:量子化選びの最終フロー

  1. 動かすモデルサイズを決める(7B / 14B / 32B / 70B)
  2. 手元の GPU の VRAM 容量を確認する(24GB / 32GB / 96GB / Unified)
  3. 本体 + KV キャッシュで context 含め必要 VRAM を計算する
  4. 収まる量子化のうち最も高ビット数を選ぶ(基本は Q5_K_M、70B + 5090 だけ Q4_K_M)
  5. コンテキストを長く取りたい場合は KV キャッシュ量子化(INT8)も検討

量子化フォーマットは「品質と速度のスライダー」です。本記事の数値・判断軸を踏まえれば、自分の GPU とモデルに対して妥当な量子化を 30 秒で決められるはずです。


あなたに合うPCを診断する

用途や予算をもう少し細かく入力すると、3つの候補構成を提案します。

診断スタート

関連記事