ローカルLLMの量子化フォーマットとは 2026年版:GGUF(Q4_K_M)/ GPTQ / AWQ / EXL2 の仕組みと精度劣化、どれを選ぶか
ローカルLLMの量子化フォーマット GGUF・GPTQ・AWQ・EXL2 が何を圧縮し、なぜ精度が落ちるのかを仕組みから解説。Q4_K_M がほぼフル精度に並ぶ理由、AWQ/GPTQ/EXL2 の品質保持率と対応環境(NVIDIA向けかMac/CPU向けか)、70Bと7Bで劣化幅が違う理由まで、フォーマット選びの判断軸を一本にまとめます。
- #量子化
- #GGUF
- #GPTQ
- #AWQ
- #EXL2
- #Q4_K_M
- #ローカルLLM
- #精度劣化
- #imatrix
- #量子化フォーマット

結論:迷ったら GGUF の Q4_K_M を選べば失敗しません。これはほとんどのタスクでフル精度(FP16)に肉薄しつつ、サイズを約 1/4 に圧縮できる量子化フォーマットの標準解だからです。フォーマット族は「対応環境」で分かれます。GGUF は Mac / CPU / 汎用互換、GPTQ・AWQ・EXL2 は主に NVIDIA GPU 向け。品質保持率の目安は AWQ ≒95% > GGUF ≒92% > GPTQ ≒90%(タスク依存)。そして反直感的ですが、70B を Q4 にした方が 7B を Q4 にするより劣化が小さい。本記事は、これらのフォーマットが「何を圧縮し、なぜ精度が落ちるのか」を仕組みから整理します。
ローカルLLM を触り始めると、必ず Q4_K_M、GPTQ、AWQ、EXL2 といった呪文のような表記に出くわします。同じモデルでもこれらの形式が並んでいて、どれをダウンロードすべきか分からない。これが最初の関門です。
この記事は、量子化フォーマット族(GGUF / GPTQ / AWQ / EXL2)の仕組みと品質劣化を概念から解説します。「Q4 と Q5 と Q8 で速度がどう変わるか」という体感ベンチは「ローカルLLM 量子化ベンチマーク 2026年版」が担当で、本記事はその一段手前、**「そもそも量子化とは何をしていて、なぜ精度が落ちるのか」**を扱います。
そもそも量子化とは「重みの解像度を下げる」こと
LLM は数十億〜数千億個の 重み(パラメータ) という数値の集まりです。学習時はこれを 16bit 浮動小数点(FP16 / BF16)で持っています。量子化とは、この 1 つあたりのビット数を減らして、モデル全体のサイズを縮める 操作です。
| 精度 | 1 重みあたり | 7B モデルの目安サイズ | 用途 |
|---|---|---|---|
| FP16 / BF16 | 16bit | 約 14GB | 学習・フル精度推論 |
| 8bit(Q8) | 8bit | 約 7GB | ほぼ無劣化の推論 |
| 4bit(Q4) | 4bit | 約 4GB | ローカル推論の主流 |
| 2bit(Q2) | 2bit | 約 2GB | 劣化大、緊急用 |
16bit を 4bit にすればサイズは約 1/4。その分、限られた VRAM により大きなモデルを載せられます。どのモデルがどれだけの VRAM を必要とするかは「VRAM とは何か。ローカルLLM 推論に必要な量」と「ローカルLLM のメモリ容量別モデル早見表」で確認できます。
なぜ精度が落ちるのか
重みを「解像度の低い数値」で表すと、本来の値との間に丸め誤差が生まれます。画像を JPEG で圧縮すると細部が失われるのと同じで、量子化は重みを「近い値」に丸めるぶん、モデルの出力にわずかなズレが蓄積します。ビット数を減らすほど丸め幅が大きくなり、劣化が顕在化します。
ただし**「賢く丸める」ことで劣化を最小化する**のが、各フォーマットの腕の見せどころです。同じ 4bit でも、どの重みを優先して精度を残すか、どの単位でスケールを取るかで品質が変わります。ここがフォーマット族の違いです。
フォーマット族の住み分け
主要 4 フォーマットを「対応環境」と「特徴」で並べます。
| フォーマット | 主な対応環境 | 圧縮の考え方 | 強み |
|---|---|---|---|
| GGUF | llama.cpp / Ollama / LM Studio(Mac/CPU/GPU 混在・汎用) | K-quant(ブロック単位のスケール、重要層を厚く) | 互換性・Mac/CPU・最も無難 |
| GPTQ | 主に NVIDIA GPU | キャリブレーションデータで層ごとに誤差最小化 | GPU 推論で定番だった |
| AWQ | 主に NVIDIA GPU | activation-aware:重要な重みを保護して丸める | 低劣化・instruction 従順性に強い |
| EXL2 | NVIDIA GPU(ExLlamaV2) | 可変ビット幅、層ごとに最適配分 | 同品質なら tok/sec 最速 |
GGUF(Q4_K_M が標準)
GGUF は llama.cpp 系(Ollama / LM Studio 含む)の標準形式で、CPU + GPU 混在や Mac でも動く汎用性が最大の強みです。中でも K-quant 系の Q4_K_M は、重要な層に多めのビットを割り当てる工夫が入っており、4bit でありながらフル精度に肉薄します。「とりあえず GGUF の Q4_K_M」がローカルLLM の事実上の標準推奨です。Mac で GGUF を動かす際のランタイム選択は「Apple Silicon で MLX と llama.cpp どちらが速いか」も参考になります。
GPTQ
GPTQ は、少量のキャリブレーションデータを使って層ごとに量子化誤差が最小になるよう重みを調整する手法です。NVIDIA GPU 向けの量子化として長く定番でした。品質保持率の目安は ≒90%(タスク依存)。
AWQ
AWQ(Activation-aware Weight Quantization) は、「出力への影響が大きい重み(activation が大きい経路)を保護して丸める」アプローチです。重要な重みの精度を残すため劣化が小さく、推論や instruction 従順性(指示への従いやすさ)に強いと評価されます。品質保持率の目安は ≒95% と 4 形式の中でも高め。
EXL2
EXL2(ExLlamaV2) は、層ごとに可変のビット幅を割り当てられるのが特徴で、「平均 4.0bpw」のように細かく狙えます。NVIDIA GPU 上で同品質なら最速の tok/secを出しやすく、たとえば RTX 4060 Ti 16GB・13B クラスで GGUF の Q4_K_M 比 +15〜20% のトークン生成速度という報告もあります。VRAM を効率的に使いつつ速度を詰めたい NVIDIA ユーザー向けです。
NVFP4 / FP8 といった新しい低ビットフォーマットも登場しており、新世代の GPU やランタイムが対応を進めています。当面の主役は上記 4 形式ですが、今後の選択肢は広がる方向です。
品質保持率の目安(タスク依存である点に注意)
各フォーマットの品質保持率を、あくまで目安として並べます。実際の劣化はタスク(コード生成・数学・要約・会話など)に強く依存するため、絶対値ではなく「相対的な傾向」として読んでください。
| フォーマット | 品質保持率(目安) | コメント |
|---|---|---|
| AWQ | ≒95% | activation-aware で重要重みを保護 |
| GGUF(Q4_K_M) | ≒92% | 汎用性と品質のバランスが良い標準 |
| GPTQ | ≒90% | キャリブレーション依存 |
| EXL2 | 可変(設定 bpw 次第) | bpw を上げれば品質、下げれば速度 |
数字は環境・モデル・評価タスクで変動します。重要なのは「4bit でも実用上はほとんど劣化を感じない」という事実で、特に GGUF Q4_K_M と AWQ は安心して常用できる水準です。
反直感ポイント:ここを押さえると選択が楽になる
量子化には、直感に反するが知っておくと判断が速くなるポイントが 2 つあります。
1. Q8 と Q4_K_M の差は会話では気づきにくい。でも Q4→Q2 は別物
日常的なチャットや要約では、Q8(8bit)と Q4_K_M(4bit)の差はほとんど体感できません。一方、同じモデルでも Q4 から Q2(2bit)まで落とすと、複雑な推論・コード・数学で明確に劣化します。「とにかく軽く」と Q2 まで落とすのは、用途次第で逆効果です。劣化を恐れて Q8 を選ぶより、Q4_K_M で 1 つ上のサイズのモデルを動かす方が賢い、というのが実務的な結論です。
2. 70B Q4 は 7B Q4 より劣化が小さい
これが最も反直感的な点です。大きいモデルほど量子化に強い。理由は、大型モデルは重みの冗長性が高いため、量子化で多少の情報が失われても全体の表現力への影響が相対的に小さいからです。逆に小型モデルは 1 つ 1 つの重みが効くので、低ビット化のダメージを受けやすい。
| 7B | 70B | |
|---|---|---|
| Q4 量子化時の劣化 | 相対的に大きい | 相対的に小さい |
| 理由 | 重みの冗長性が低い | 重みの冗長性が高い |
つまり「大型モデルを思い切って Q4 に落とす」のは、量子化の中でも特にコスパの良い選択です。70B を VRAM に収めるために Q4 化することへの心理的抵抗は、実はそれほど要りません。
imatrix:同じビット幅でも品質を底上げする
最後に、近年標準化しつつある imatrix(importance matrix)量子化 に触れます。これは、代表的なテキストでモデルを動かして「どの重みが重要か」を測り、その重要度に応じて量子化の精度配分を最適化する手法です。同じビット幅(例: Q4_K_M)でも、imatrix を使うと品質が底上げされます。配布されている GGUF の中には imatrix 適用済みのものが増えており、同じ Q4_K_M でも imatrix 版を選ぶと一段良い、と覚えておくと得です。
まとめ:迷ったら GGUF Q4_K_M、NVIDIA で詰めるなら EXL2/AWQ
- 量子化は「重みの解像度を下げてサイズを縮める」操作。丸め誤差で精度が落ちるが、賢い丸め方で最小化できる
- 対応環境で選ぶ:Mac / CPU / 汎用 = GGUF、NVIDIA GPU = GPTQ / AWQ / EXL2
- 品質保持率の目安:AWQ ≒95% > GGUF ≒92% > GPTQ ≒90%(タスク依存)
- 迷ったら GGUF の Q4_K_M。会話では Q8 との差はほぼ分からない
- 70B Q4 は 7B Q4 より劣化が小さい(大型モデルは重みの冗長性が高い)
- imatrix 量子化は同ビット幅でも品質を底上げする
量子化フォーマットは一見複雑ですが、判断軸は「動かす環境」と「どこまで品質を残したいか」の 2 つだけです。Mac や手軽さ重視なら GGUF Q4_K_M、NVIDIA で速度と効率を詰めたいなら EXL2 か AWQ。この地図さえ持っていれば、モデル配布ページの呪文に迷うことはなくなります。
あなたに合うPCを診断する
用途や予算をもう少し細かく入力すると、3つの候補構成を提案します。
→ 診断スタート
関連記事
- ローカルLLM 量子化ベンチマーク 2026年版:Q4/Q5/Q8/FP16 で速度・体感がどう変わるかの実測
- VRAM とは何か。ローカルLLM 推論に必要な量の決まり方 2026年版:量子化後のサイズと VRAM の関係
- ローカルLLM のメモリ容量別モデル早見表 2026年版:どの容量でどの量子化モデルが載るか