ローカルLLM 量子化フォーマット別推論速度ベンチマーク 2026年版：Q4_K_M / Q5_K_M / Q8

本記事は Amazon.co.jp および各販売店のアフィリエイトリンクを含む場合があります。推奨は性能・コスパ・実機ベンチマーク基準で編集判断しており、提供記事は受け付けていません。詳細はプライバシーポリシーをご覧ください。

ローカルLLM 量子化ベンチ 2026:Q4_K_M / Q5_K_M / Q8_0 / FP16 のトークン秒とVRAM占有量を比較

結論：迷ったら Q5_K_M。Q4_K_M はサイズ最小だがコード生成や論理推論でわずかに落ちる。Q5_K_M は Q4 比 VRAM +15% / 速度 -10% で品質が体感ほぼ FP16 に並び、コスパ最良。Q8_0 はほぼ FP16 と区別がつかず、80GB 級 VRAM がある人だけの選択肢。FP16 は研究・ファインチューニング前提で、推論だけなら Q8_0 で十分です。

ローカル LLM を動かすとき、最初に決めるのは「どのモデルを使うか」、次に決めるのは「どの量子化を選ぶか」です。Q4_K_M・Q5_K_M・Q8_0・FP16 と並ぶ選択肢は、トークン/秒・VRAM 占有量・出力品質の 3 軸でトレードオフし、用途で最適解が変わります。本記事では公開ベンチマークと r/LocalLLaMA / GitHub Issues / 国内 Qiita / note の実測報告を横断集約し、Llama 3.3 70B と Qwen 2.5 32B を題材に量子化フォーマット別の速度・VRAM・品質を整理します。

iris-lab の自前実測ではなく公開実測の集約ベースである点は最初に明示します。Phase 1 で iris-lab の実機データを追記する前提で、本記事は「2026年5月時点で世間が報告している量子化別の挙動」のスナップショットとして読んでください。

3 行で知る GGUF 量子化フォーマット

GGUF は llama.cpp / Ollama / LM Studio で使われる量子化済みモデルの標準フォーマットです。フォーマット名に出てくる Q4 / Q5 / Q6 / Q8 はビット数を、K_M / K_S / 0 は量子化方式の細かい設定を示します。

フォーマット	ビット数	概要
Q4_K_M	4bit（K-quant）	重要レイヤを 5/6bit に底上げした「中庸」プリセット
Q4_K_S	4bit（K-quant）	M より軽量。容量はわずかに小さく品質もわずかに落ちる
Q5_K_M	5bit（K-quant）	Q4 より +15% 容量で品質が体感的に大きく向上
Q6_K	6bit	Q5 と Q8 の中間。あまり使われない
Q8_0	8bit（線形量子化）	FP16 とほぼ区別がつかない品質。サイズ約半分
FP16	16bit（半精度）	量子化なしの本物。サイズ最大

K-quant（K_M / K_S）は「重要な投影層（attention の Q/K/V と FFN）だけ高いビット数を割り当て、それ以外を低いビット数に落とす」という仕組みで、純粋な Q4_0 / Q5_0 より同じビット数で品質が上がります。「Q4_K_M を選ぶ」は実質的に「平均 4.5bit 程度の K-quant を選ぶ」と思って大きく外しません。

詳しい背景は「VRAMとは何か。ローカルLLM推論で必要な量の決まり方 2026年版」の量子化セクションでも触れています。本記事はその実測値・体感差に踏み込む位置づけです。

ベンチ前提：モデル・GPU・バックエンド

公開ベンチで揃いやすい組み合わせに絞って整理します。

モデル：Llama 3.3 70B / Qwen 2.5 32B Instruct
GPU / SoC：RTX 5090（32GB GDDR7）/ RTX PRO 6000 Blackwell（96GB GDDR7 ECC）/ Mac Studio M3 Ultra 192GB
バックエンド：llama.cpp（CUDA / Metal）、b5000 系（2026年4月時点）
コンテキスト：4K（短文プロンプトのデコード速度を取る）
数値出典：r/LocalLLaMA / Hugging Face Discussions の実測報告 + ggerganov/llama.cpp 公式ベンチ集計

ベンチ値の揺れは ±15% 程度の幅で読んでください。バックエンドのバージョン・CUDA / cuDNN・OS スケジューラ次第で同じハード・同じモデルでも変動します。

Llama 3.3 70B：量子化別トークン/秒と VRAM

量子化	ファイル size	RTX 5090（32GB）	RTX PRO 6000（96GB）	M3 Ultra 192GB
Q4_K_M	約 42GB	△ VRAM ギリ（KV含めて 30GB前後） / 25〜30 tok/s	◎ 28〜35 tok/s	〇 11〜15 tok/s
Q5_K_M	約 50GB	✗ VRAM 不足	◎ 22〜28 tok/s	〇 9〜13 tok/s
Q8_0	約 75GB	✗	〇 12〜18 tok/s	〇 6〜10 tok/s
FP16	約 140GB	✗	△ 6〜10 tok/s	〇 3〜5 tok/s

「✗ VRAM 不足」は本体重みだけで GPU メモリに乗りきらない、または KV キャッシュ込みでオフロード前提になり実用速度を出せない領域です。RTX 5090（32GB）は Llama 3.3 70B では Q4_K_M が現実的な唯一の選択で、Q5_K_M ですら 4K context でも溢れます。

RTX PRO 6000（96GB）は Q5_K_M まで快適、Q8_0 で 12〜18 tok/s と「業務エージェントとして 24h 回す」用途に届きます。Mac Studio M3 Ultra は速度を諦めれば Q8_0・FP16 まで素直に動く稀少な機種です。

数値の元になっている Llama 3.3 70B の GPU 別速度の全体像は別記事「Llama 3.3 70B GPU別トークン/秒 2026年版」で扱っています。本記事は「同じ GPU で量子化を振った時の差」に絞った内容です。

Qwen 2.5 32B：32B 級は 24GB GPU で量子化を選べる

70B より一段下の 32B クラスは、24GB / 32GB GPU で量子化フォーマットを自由に選べる「比較が分かりやすい」サイズです。

量子化	ファイル size	RTX 4090（24GB）	RTX 5090（32GB）	M3 Ultra 192GB
Q4_K_M	約 19GB	◎ 45〜55 tok/s	◎ 60〜75 tok/s	〇 22〜28 tok/s
Q5_K_M	約 23GB	△ KV 込みでギリ	◎ 55〜65 tok/s	〇 19〜25 tok/s
Q8_0	約 34GB	✗	△ KV 込みで詰まる	〇 13〜18 tok/s
FP16	約 65GB	✗	✗	〇 7〜11 tok/s

32B サイズだと RTX 5090 でも Q5_K_M が現実的に運用できます。Q4_K_M との品質差は短いコード補完では出にくく、長文の論理推論や多段の関数呼び出しで「Q5 のほうが安定」と感じる人が多いです。

RTX 4090 で 32B Q5 を使いたい人は、コンテキスト 2K に絞れば回る場合もあります。「24GB で 32B Q5、32GB で 32B Q8」のどちらが妥当かは、実利用のコンテキスト長次第になります。

品質差：perplexity と「体感」の橋渡し

ベンチ論文や Hugging Face 上のテストで報告されている、Llama 70B 級の量子化別 perplexity 劣化の目安は次の通りです（WikiText 2 / C4 ベース、公開値の集約）。

量子化	perplexity 劣化（対 FP16）	体感の傾向
Q4_K_M	+0.05〜+0.10	短文ではほぼ区別つかず。長文・論理推論でたまに崩れる
Q5_K_M	+0.02〜+0.05	体感は FP16 とほぼ同じ。コード生成も安定
Q8_0	+0.005〜+0.02	計測でも体感でも FP16 と区別困難
FP16	0（基準）	量子化なし

「Q4_K_M は -1〜-2 perplexity 程度の劣化」は世間で語られがちですが、公開ベンチを集約する限り 70B 級では +0.05〜+0.10 程度（perplexity の絶対値で 0.1 未満）の上昇に収まります。これは長文生成で 100 トークンに 1 回くらい微妙な選択ミスが起きる、というレベルの差で、コード補完や雑談用途では気づかないことが多いです。

逆に、Q5_K_M を選ぶ価値が出るのは次の用途です。

長いコンテキスト（16K 以上）での論理推論
多段の関数呼び出し・JSON 厳密フォーマット出力
コードリファクタリングなど「全体構造の理解」が要る作業
業務エージェントとして安定運用

短いコード補完・チャットでは Q4_K_M で十分、業務・長文では Q5_K_M、研究なら Q8_0、というのが 2026年5月時点の業界感です。

VRAM 計算式：本体 + KV キャッシュで決まる

量子化を選ぶ最大の制約は VRAM です。必要量は「重み」+「KV キャッシュ」で決まります。

必要 VRAM ≒ 重みファイルサイズ + KV キャッシュ
KV キャッシュ ≒ 2 × layers × heads × head_dim × context_length × bytes

Llama 3.3 70B（80 layers / 8 KV heads / 128 head_dim、FP16 KV）の場合:

4K context：KV 約 5.2GB
16K context：KV 約 21GB
32K context：KV 約 42GB
128K context：KV 約 168GB

たとえば「Q4_K_M（42GB）+ 32K context（42GB）= 84GB」となり、RTX PRO 6000（96GB）が「ギリギリ乗る」ライン、RTX 5090（32GB）では完全にアウトです。KV キャッシュを INT8 量子化すれば半減、INT4 まで落とせばさらに半減できますが、品質劣化と引き換えになります。

「Q4 / Q5 で本体は乗ったのに context を伸ばすと急に動かなくなる」のはこの KV キャッシュが原因です。VRAM 計算は本体だけでなく context 長まで一緒に見積もるのが鉄則です。

バックエンドごとの相性

llama.cpp 系以外の選択肢も含めて、量子化フォーマットと推論バックエンドの相性を整理します。

バックエンド	得意な量子化	備考
llama.cpp（CUDA / Metal）	Q4_K_M / Q5_K_M / Q8_0	GGUF の標準実装。最も普及
Ollama	GGUF 全般	llama.cpp ベースの GUI / API ラッパー
MLX（Apple 専用）	4bit / 6bit / 8bit	Apple Silicon の Unified Memory を活かす
vLLM	AWQ / GPTQ（4bit）/ FP16	サーバ用途・バッチ推論で速い
TensorRT-LLM	FP4 / FP8 / FP16	NVIDIA 専用、設定難度高い。ピーク速度狙い
ExLlamaV2	EXL2（カスタム量子化）	4090 / 5090 で速度を出したい人向け

「GGUF を選ぶなら llama.cpp / Ollama / LM Studio」「サーバ用途で AWQ を使うなら vLLM」「Apple Silicon で速度を出すなら MLX」の三択が 2026年5月の現実です。同じ Q4 でも GGUF Q4_K_M、AWQ 4bit、EXL2 4.0bpw で性能特性は微妙に異なります。

用途別の現実解

ここまでをまとめて、量子化選びの実用フローを 5 つの用途で示します。

用途	推奨 GPU	推奨量子化	理由
個人のコード補完（〜32B）	RTX 4090 / 5070 Ti	Q4_K_M	速度優先、品質差は気にならない
長文の論理推論（〜32B）	RTX 5090	Q5_K_M	32B Q5 が VRAM に余裕で乗る
70B を 1 枚で快適に	RTX 5090	Q4_K_M	32GB に「ギリ乗る」唯一の組合せ
70B を業務エージェントに	RTX PRO 6000	Q5_K_M / Q8_0	品質と発熱の両立
研究・ファインチューニング	RTX PRO 6000 / Mac Studio	FP16	学習・蒸留には量子化なしが安全

「迷ったら Q5_K_M、ただし 70B + 5090 の組合せだけは Q4_K_M」が 2026年5月時点で最も外しません。

よくある誤解 3 つ

「Q4 と Q8 で perplexity が劇的に違う」：70B 級では +0.05〜+0.10 程度の差で、短文ではほぼ気づきません
「Q8 にすれば FP16 と全く同じ」：ほぼ同じだが、ファインチューニング・蒸留などモデルそのものを再学習する用途では FP16 が安全
「量子化を上げれば速度も上がる」：実は逆。Q8 は Q4 より遅く、メモリ帯域が重みデータでより多く埋まるため tok/s は落ちます

特に 3 は誤解されがちです。「品質を上げる代わりに速度を諦める」のが量子化の本質で、Q4 → Q5 → Q8 → FP16 と進むほど速度は落ちます（ただし FP16 はネイティブ Tensor Core を活かせる場合があり、Q8 とほぼ同等速度のことも）。

量子化を選ぶ前にモデルサイズを再検討する

「70B Q4 で粘るより、32B Q5 を選ぶ方が結果的に快適」というのが、2026年5月の実用感です。Qwen 2.5 32B / Phi-4 14B / Gemma 2 27B 等の中型モデルは、量子化に余裕を持って選べる分、出力安定性で 70B Q4 を上回るケースが珍しくありません。

「動かしたいモデルのサイズが GPU の VRAM 容量に対して大きすぎる」と感じたら、量子化を下げる前にモデルサイズを 1 ランク下げる選択肢を検討してください。32B Q5 + 5090 のような「サイズと量子化のバランス取れた組合せ」が、結果的に体感速度・体感品質の両方で勝つことが多いです。

ハード側の最低スペックは別記事「ローカルLLMを動かすPCの最低スペック 2026年版」で扱っています。本記事の量子化選びと併せて読むと、「自分のハードでどのモデルをどの量子化で回すか」が立体的に決まります。

RTX 5090 を Amazon で見る

まとめ：量子化選びの最終フロー

動かすモデルサイズを決める（7B / 14B / 32B / 70B）
手元の GPU の VRAM 容量を確認する（24GB / 32GB / 96GB / Unified）
本体 + KV キャッシュで context 含め必要 VRAM を計算する
収まる量子化のうち最も高ビット数を選ぶ（基本は Q5_K_M、70B + 5090 だけ Q4_K_M）
コンテキストを長く取りたい場合は KV キャッシュ量子化（INT8）も検討

量子化フォーマットは「品質と速度のスライダー」です。本記事の数値・判断軸を踏まえれば、自分の GPU とモデルに対して妥当な量子化を 30 秒で決められるはずです。

あなたに合うPCを診断する

用途や予算をもう少し細かく入力すると、3つの候補構成を提案します。

→ 診断スタート

ローカルLLM 量子化フォーマット別推論速度ベンチマーク 2026年版：Q4_K_M / Q5_K_M / Q8_0 / FP16 の体感差