ローカルLLM 量子化フォーマット別 推論速度ベンチマーク 2026年版:Q4_K_M / Q5_K_M / Q8_0 / FP16 の体感差
同一GPU・同一モデル(Llama 3.3 70B / Qwen 2.5 32B)で量子化フォーマットを Q4_K_M・Q5_K_M・Q8_0・FP16 と振り、トークン/秒・VRAM 占有量・体感品質の差を実測。どの量子化が実用的かを判断する基準を示します。
- #ローカルLLM
- #量子化
- #GGUF
- #Q4_K_M
- #Q5_K_M
- #Q8_0
- #FP16
- #llama.cpp
- #Llama 3.3
- #Qwen 2.5
本記事は Amazon.co.jp および各販売店のアフィリエイトリンクを含む場合があります。推奨は性能・コスパ・実機ベンチマーク基準で編集判断しており、提供記事は受け付けていません。詳細は プライバシーポリシー をご覧ください。

結論:迷ったら Q5_K_M。Q4_K_M はサイズ最小だがコード生成や論理推論でわずかに落ちる。Q5_K_M は Q4 比 VRAM +15% / 速度 -10% で品質が体感ほぼ FP16 に並び、コスパ最良。Q8_0 はほぼ FP16 と区別がつかず、80GB 級 VRAM がある人だけの選択肢。FP16 は研究・ファインチューニング前提で、推論だけなら Q8_0 で十分です。
ローカル LLM を動かすとき、最初に決めるのは「どのモデルを使うか」、次に決めるのは「どの量子化を選ぶか」です。Q4_K_M・Q5_K_M・Q8_0・FP16 と並ぶ選択肢は、トークン/秒・VRAM 占有量・出力品質の 3 軸でトレードオフし、用途で最適解が変わります。本記事では公開ベンチマークと r/LocalLLaMA / GitHub Issues / 国内 Qiita / note の実測報告を横断集約し、Llama 3.3 70B と Qwen 2.5 32B を題材に量子化フォーマット別の速度・VRAM・品質を整理します。
iris-lab の自前実測ではなく公開実測の集約ベースである点は最初に明示します。Phase 1 で iris-lab の実機データを追記する前提で、本記事は「2026年5月時点で世間が報告している量子化別の挙動」のスナップショットとして読んでください。
3 行で知る GGUF 量子化フォーマット
GGUF は llama.cpp / Ollama / LM Studio で使われる量子化済みモデルの標準フォーマットです。フォーマット名に出てくる Q4 / Q5 / Q6 / Q8 はビット数を、K_M / K_S / 0 は量子化方式の細かい設定を示します。
| フォーマット | ビット数 | 概要 |
|---|---|---|
| Q4_K_M | 4bit(K-quant) | 重要レイヤを 5/6bit に底上げした「中庸」プリセット |
| Q4_K_S | 4bit(K-quant) | M より軽量。容量はわずかに小さく品質もわずかに落ちる |
| Q5_K_M | 5bit(K-quant) | Q4 より +15% 容量で品質が体感的に大きく向上 |
| Q6_K | 6bit | Q5 と Q8 の中間。あまり使われない |
| Q8_0 | 8bit(線形量子化) | FP16 とほぼ区別がつかない品質。サイズ約半分 |
| FP16 | 16bit(半精度) | 量子化なしの本物。サイズ最大 |
K-quant(K_M / K_S)は「重要な投影層(attention の Q/K/V と FFN)だけ高いビット数を割り当て、それ以外を低いビット数に落とす」という仕組みで、純粋な Q4_0 / Q5_0 より同じビット数で品質が上がります。「Q4_K_M を選ぶ」は実質的に「平均 4.5bit 程度の K-quant を選ぶ」と思って大きく外しません。
詳しい背景は「VRAMとは何か。ローカルLLM推論で必要な量の決まり方 2026年版」の量子化セクションでも触れています。本記事はその実測値・体感差に踏み込む位置づけです。
ベンチ前提:モデル・GPU・バックエンド
公開ベンチで揃いやすい組み合わせに絞って整理します。
- モデル:Llama 3.3 70B / Qwen 2.5 32B Instruct
- GPU / SoC:RTX 5090(32GB GDDR7)/ RTX PRO 6000 Blackwell(96GB GDDR7 ECC)/ Mac Studio M3 Ultra 192GB
- バックエンド:llama.cpp(CUDA / Metal)、b5000 系(2026年4月時点)
- コンテキスト:4K(短文プロンプトのデコード速度を取る)
- 数値出典:r/LocalLLaMA / Hugging Face Discussions の実測報告 + ggerganov/llama.cpp 公式ベンチ集計
ベンチ値の揺れは ±15% 程度の幅で読んでください。バックエンドのバージョン・CUDA / cuDNN・OS スケジューラ次第で同じハード・同じモデルでも変動します。
Llama 3.3 70B:量子化別トークン/秒と VRAM
| 量子化 | ファイル size | RTX 5090(32GB) | RTX PRO 6000(96GB) | M3 Ultra 192GB |
|---|---|---|---|---|
| Q4_K_M | 約 42GB | △ VRAM ギリ(KV含めて 30GB前後) / 25〜30 tok/s | ◎ 28〜35 tok/s | 〇 11〜15 tok/s |
| Q5_K_M | 約 50GB | ✗ VRAM 不足 | ◎ 22〜28 tok/s | 〇 9〜13 tok/s |
| Q8_0 | 約 75GB | ✗ | 〇 12〜18 tok/s | 〇 6〜10 tok/s |
| FP16 | 約 140GB | ✗ | △ 6〜10 tok/s | 〇 3〜5 tok/s |
「✗ VRAM 不足」は本体重みだけで GPU メモリに乗りきらない、または KV キャッシュ込みでオフロード前提になり実用速度を出せない領域です。RTX 5090(32GB)は Llama 3.3 70B では Q4_K_M が現実的な唯一の選択で、Q5_K_M ですら 4K context でも溢れます。
RTX PRO 6000(96GB)は Q5_K_M まで快適、Q8_0 で 12〜18 tok/s と「業務エージェントとして 24h 回す」用途に届きます。Mac Studio M3 Ultra は速度を諦めれば Q8_0・FP16 まで素直に動く稀少な機種です。
数値の元になっている Llama 3.3 70B の GPU 別速度の全体像は別記事「Llama 3.3 70B GPU別トークン/秒 2026年版」で扱っています。本記事は「同じ GPU で量子化を振った時の差」に絞った内容です。
Qwen 2.5 32B:32B 級は 24GB GPU で量子化を選べる
70B より一段下の 32B クラスは、24GB / 32GB GPU で量子化フォーマットを自由に選べる「比較が分かりやすい」サイズです。
| 量子化 | ファイル size | RTX 4090(24GB) | RTX 5090(32GB) | M3 Ultra 192GB |
|---|---|---|---|---|
| Q4_K_M | 約 19GB | ◎ 45〜55 tok/s | ◎ 60〜75 tok/s | 〇 22〜28 tok/s |
| Q5_K_M | 約 23GB | △ KV 込みでギリ | ◎ 55〜65 tok/s | 〇 19〜25 tok/s |
| Q8_0 | 約 34GB | ✗ | △ KV 込みで詰まる | 〇 13〜18 tok/s |
| FP16 | 約 65GB | ✗ | ✗ | 〇 7〜11 tok/s |
32B サイズだと RTX 5090 でも Q5_K_M が現実的に運用できます。Q4_K_M との品質差は短いコード補完では出にくく、長文の論理推論や多段の関数呼び出しで「Q5 のほうが安定」と感じる人が多いです。
RTX 4090 で 32B Q5 を使いたい人は、コンテキスト 2K に絞れば回る場合もあります。「24GB で 32B Q5、32GB で 32B Q8」のどちらが妥当かは、実利用のコンテキスト長次第になります。
品質差:perplexity と「体感」の橋渡し
ベンチ論文や Hugging Face 上のテストで報告されている、Llama 70B 級の量子化別 perplexity 劣化の目安は次の通りです(WikiText 2 / C4 ベース、公開値の集約)。
| 量子化 | perplexity 劣化(対 FP16) | 体感の傾向 |
|---|---|---|
| Q4_K_M | +0.05〜+0.10 | 短文ではほぼ区別つかず。長文・論理推論でたまに崩れる |
| Q5_K_M | +0.02〜+0.05 | 体感は FP16 とほぼ同じ。コード生成も安定 |
| Q8_0 | +0.005〜+0.02 | 計測でも体感でも FP16 と区別困難 |
| FP16 | 0(基準) | 量子化なし |
「Q4_K_M は -1〜-2 perplexity 程度の劣化」は世間で語られがちですが、公開ベンチを集約する限り 70B 級では +0.05〜+0.10 程度(perplexity の絶対値で 0.1 未満)の上昇に収まります。これは長文生成で 100 トークンに 1 回くらい微妙な選択ミスが起きる、というレベルの差で、コード補完や雑談用途では気づかないことが多いです。
逆に、Q5_K_M を選ぶ価値が出るのは次の用途です。
- 長いコンテキスト(16K 以上)での論理推論
- 多段の関数呼び出し・JSON 厳密フォーマット出力
- コードリファクタリングなど「全体構造の理解」が要る作業
- 業務エージェントとして安定運用
短いコード補完・チャットでは Q4_K_M で十分、業務・長文では Q5_K_M、研究なら Q8_0、というのが 2026年5月時点の業界感です。
VRAM 計算式:本体 + KV キャッシュで決まる
量子化を選ぶ最大の制約は VRAM です。必要量は「重み」+「KV キャッシュ」で決まります。
必要 VRAM ≒ 重みファイルサイズ + KV キャッシュ
KV キャッシュ ≒ 2 × layers × heads × head_dim × context_length × bytes
Llama 3.3 70B(80 layers / 8 KV heads / 128 head_dim、FP16 KV)の場合:
- 4K context:KV 約 5.2GB
- 16K context:KV 約 21GB
- 32K context:KV 約 42GB
- 128K context:KV 約 168GB
たとえば「Q4_K_M(42GB)+ 32K context(42GB)= 84GB」となり、RTX PRO 6000(96GB)が「ギリギリ乗る」ライン、RTX 5090(32GB)では完全にアウトです。KV キャッシュを INT8 量子化すれば半減、INT4 まで落とせばさらに半減できますが、品質劣化と引き換えになります。
「Q4 / Q5 で本体は乗ったのに context を伸ばすと急に動かなくなる」のはこの KV キャッシュが原因です。VRAM 計算は本体だけでなく context 長まで一緒に見積もるのが鉄則です。
バックエンドごとの相性
llama.cpp 系以外の選択肢も含めて、量子化フォーマットと推論バックエンドの相性を整理します。
| バックエンド | 得意な量子化 | 備考 |
|---|---|---|
| llama.cpp(CUDA / Metal) | Q4_K_M / Q5_K_M / Q8_0 | GGUF の標準実装。最も普及 |
| Ollama | GGUF 全般 | llama.cpp ベースの GUI / API ラッパー |
| MLX(Apple 専用) | 4bit / 6bit / 8bit | Apple Silicon の Unified Memory を活かす |
| vLLM | AWQ / GPTQ(4bit)/ FP16 | サーバ用途・バッチ推論で速い |
| TensorRT-LLM | FP4 / FP8 / FP16 | NVIDIA 専用、設定難度高い。ピーク速度狙い |
| ExLlamaV2 | EXL2(カスタム量子化) | 4090 / 5090 で速度を出したい人向け |
「GGUF を選ぶなら llama.cpp / Ollama / LM Studio」「サーバ用途で AWQ を使うなら vLLM」「Apple Silicon で速度を出すなら MLX」の三択が 2026年5月の現実です。同じ Q4 でも GGUF Q4_K_M、AWQ 4bit、EXL2 4.0bpw で性能特性は微妙に異なります。
用途別の現実解
ここまでをまとめて、量子化選びの実用フローを 5 つの用途で示します。
| 用途 | 推奨 GPU | 推奨量子化 | 理由 |
|---|---|---|---|
| 個人のコード補完(〜32B) | RTX 4090 / 5070 Ti | Q4_K_M | 速度優先、品質差は気にならない |
| 長文の論理推論(〜32B) | RTX 5090 | Q5_K_M | 32B Q5 が VRAM に余裕で乗る |
| 70B を 1 枚で快適に | RTX 5090 | Q4_K_M | 32GB に「ギリ乗る」唯一の組合せ |
| 70B を業務エージェントに | RTX PRO 6000 | Q5_K_M / Q8_0 | 品質と発熱の両立 |
| 研究・ファインチューニング | RTX PRO 6000 / Mac Studio | FP16 | 学習・蒸留には量子化なしが安全 |
「迷ったら Q5_K_M、ただし 70B + 5090 の組合せだけは Q4_K_M」が 2026年5月時点で最も外しません。
よくある誤解 3 つ
- 「Q4 と Q8 で perplexity が劇的に違う」:70B 級では +0.05〜+0.10 程度の差で、短文ではほぼ気づきません
- 「Q8 にすれば FP16 と全く同じ」:ほぼ同じだが、ファインチューニング・蒸留などモデルそのものを再学習する用途では FP16 が安全
- 「量子化を上げれば速度も上がる」:実は逆。Q8 は Q4 より遅く、メモリ帯域が重みデータでより多く埋まるため tok/s は落ちます
特に 3 は誤解されがちです。「品質を上げる代わりに速度を諦める」のが量子化の本質で、Q4 → Q5 → Q8 → FP16 と進むほど速度は落ちます(ただし FP16 はネイティブ Tensor Core を活かせる場合があり、Q8 とほぼ同等速度のことも)。
量子化を選ぶ前にモデルサイズを再検討する
「70B Q4 で粘るより、32B Q5 を選ぶ方が結果的に快適」というのが、2026年5月の実用感です。Qwen 2.5 32B / Phi-4 14B / Gemma 2 27B 等の中型モデルは、量子化に余裕を持って選べる分、出力安定性で 70B Q4 を上回るケースが珍しくありません。
「動かしたいモデルのサイズが GPU の VRAM 容量に対して大きすぎる」と感じたら、量子化を下げる前にモデルサイズを 1 ランク下げる選択肢を検討してください。32B Q5 + 5090 のような「サイズと量子化のバランス取れた組合せ」が、結果的に体感速度・体感品質の両方で勝つことが多いです。
ハード側の最低スペックは別記事「ローカルLLMを動かすPCの最低スペック 2026年版」で扱っています。本記事の量子化選びと併せて読むと、「自分のハードでどのモデルをどの量子化で回すか」が立体的に決まります。
まとめ:量子化選びの最終フロー
- 動かすモデルサイズを決める(7B / 14B / 32B / 70B)
- 手元の GPU の VRAM 容量を確認する(24GB / 32GB / 96GB / Unified)
- 本体 + KV キャッシュで context 含め必要 VRAM を計算する
- 収まる量子化のうち最も高ビット数を選ぶ(基本は Q5_K_M、70B + 5090 だけ Q4_K_M)
- コンテキストを長く取りたい場合は KV キャッシュ量子化(INT8)も検討
量子化フォーマットは「品質と速度のスライダー」です。本記事の数値・判断軸を踏まえれば、自分の GPU とモデルに対して妥当な量子化を 30 秒で決められるはずです。
あなたに合うPCを診断する
用途や予算をもう少し細かく入力すると、3つの候補構成を提案します。
→ 診断スタート