VRAMとは何か。ローカルLLM推論で必要な量の決まり方 2026年版
VRAMはGPUに搭載される専用メモリで、ローカルLLMを動かす際の最大ボトルネックです。必要量はモデルパラメータ数・量子化方式・KVキャッシュで決まります。Llama 3.3 70B 等を例に、計算式と早見表で2026年版の必要VRAMを解説します。
- #VRAM
- #ローカルLLM
- #量子化
- #KVキャッシュ
- #GPU
- #Llama 3.3
- #DeepSeek-V3
本記事は Amazon.co.jp および各販売店のアフィリエイトリンクを含む場合があります。推奨は性能・コスパ・実機ベンチマーク基準で編集判断しており、提供記事は受け付けていません。詳細は プライバシーポリシー をご覧ください。

結論:ローカルLLMの必要VRAMは「モデル本体」と「KVキャッシュ」の合計でほぼ決まります。 70B クラスを 4bit 量子化で動かすなら本体だけで約 40GB、32k コンテキストの会話履歴を持たせるなら +14GB ほど、合計 48〜56GB を見ておくのが現実的です。8B 級なら本体 6GB + α なので 12GB GPU でも普通に走ります。
この記事では、なぜそのVRAM量が必要になるのかを、計算式と量子化方式・KVキャッシュの仕組みから整理します。GPUを買う前にこのページに戻ってきて、自分が動かしたいモデルの必要量を1分で見積もれるところを目指します。
VRAMとは:GPU専用の作業机
VRAM(Video RAM)は GPU に直結された専用メモリです。CPU が使うシステムRAMとは経路が分かれており、GPU 演算ユニットからは桁違いに速くアクセスできます。
ざっくり言えば、システムRAMが棚で、VRAMが机 です。LLM 推論では、モデルの重みを机の上に広げて、トークンを生成するたびに机のいろんな場所を高速で参照します。机に乗りきらないとき、棚から都度持ってこなければならず、推論速度は経験則で5〜20倍遅くなります(CPUオフロード時の挙動)。
世代別の VRAM の中身は以下の通りです。
| 世代 | 主な搭載GPU | 帯域幅の目安 |
|---|---|---|
| GDDR6 | RTX 3060 / 3090 / 4060 | 360〜936 GB/s |
| GDDR6X | RTX 3080 / 3090 Ti / 4080 / 4090 | 760〜1008 GB/s |
| GDDR7 | RTX 5080 / 5090 | 960〜1792 GB/s |
| HBM3 / HBM3e | H100 / H200 / B200 | 3.35〜4.8 TB/s |
| Unified Memory(LPDDR5X) | Mac Studio M3 Ultra | 800 GB/s |
帯域が広いほどトークン生成が速くなります。GDDR7 の RTX 5090 は前世代 4090 比で約 78% の帯域向上、データセンタ向け H100 はさらに桁違いです。
必要VRAMを決める3つの要素
LLM 推論で VRAM を食う要素はだいたい3つに分かれます。
- モデル本体(重み):パラメータ × bit数 ÷ 8
- KVキャッシュ:コンテキスト長に比例して増える会話履歴
- アクティベーション・ワーキングメモリ:推論中の中間計算用、おおむね数 GB
このうちサイズ感が大きく動くのは 本体 と KVキャッシュ です。アクティベーションは経験則で 1〜3GB ぐらいの上乗せと考えれば、ざっくり計算で困りません。
モデル本体のVRAM計算式
基本は単純です。
モデル本体VRAM(GB) ≒ パラメータ数(B) × ビット幅(bit) ÷ 8
たとえば Llama 3.3 70B を量子化方式別に並べるとこうなります。
| 量子化 | bit幅 | 70B 本体VRAM | 8B 本体VRAM |
|---|---|---|---|
| FP16 | 16 | 約 140 GB | 約 16 GB |
| Q8_0 | 8 | 約 70 GB | 約 8 GB |
| Q5_K_M | 5 | 約 49 GB | 約 6 GB |
| Q4_K_M | 4 | 約 39〜42 GB | 約 5 GB |
| Q3_K_M | 3 | 約 32 GB | 約 4 GB |
Llama 3.3 70B Q4_K_M は実測 39〜42GB と、計測ツールやランタイムによって誤差が出ます。これはモデル中の埋め込み層など量子化されない部分が一定量残るためで、計算上の 35GB(70 × 4 ÷ 8)より少し膨らみます。「計算式 + 1〜3GB」で見積もるのがちょうど良いラインです。
KVキャッシュ:コンテキスト長で爆発する変数
LLM は会話履歴やシステムプロンプトを「Key/Value」テンソルとして VRAM に保持しながら推論します。これがKVキャッシュで、コンテキスト長に比例して線形に増えます。
70B モデル(GQA構成)のKVキャッシュの目安はこうです。
| コンテキスト長 | KVキャッシュ |
|---|---|
| 2k tokens | 約 1.6 GB |
| 8k tokens | 約 6 GB |
| 32k tokens | 約 14 GB |
| 128k tokens | 40 GB 超 |
つまり 70B Q4_K_M を 32k コンテキストで動かすなら、本体 40GB + KV 14GB ≒ 54GB が現実的な必要量です。RTX 5090 32GB の単体では足りず、RTX A6000 48GB ですら 32k は厳しい、という構図になります。
KVキャッシュは ollama / llama.cpp で 量子化 できます。OLLAMA_KV_CACHE_TYPE=q8_0 を指定すると KV を 8bit 量子化し、メモリ消費を半減させられます。品質劣化はほぼ知覚できないレベルなので、VRAMが厳しいときの最初の一手として効きます。
量子化方式の早見表
「量子化」とは、本来 16bit 浮動小数点で持つ重みを、より少ないビット数で近似する手法です。容量を削るほど品質が落ちますが、最近のフォーマットは賢いので、Q4_K_M ぐらいまでなら多くの用途で違いを感じません。
| フォーマット | 平均bit幅 | 特徴 |
|---|---|---|
| FP16 / BF16 | 16 | 量子化なし。学習時の元データ |
| Q8_0 | 8 | ほぼロスレス、容量半減 |
| Q5_K_M | 5.5 | 高品質、Q4 より精度重視 |
| Q4_K_M | 4.5 | 消費者ハードでの定番 |
| Q3_K_M | 3.4 | やや論理が崩れることも |
| AWQ (4bit) | 4 | NVIDIA 系で速い、TensorRT-LLM 互換 |
| GPTQ (4bit) | 4 | AWQ 以前の定番、サポート広い |
Q4_K_M のように _K_M が付くものは「K-quants ミディアム」と呼ばれる llama.cpp 系のフォーマットで、層ごとに重要度の高いところは 5〜6bit、それ以外は 3〜4bit と可変で量子化されます。単純な4bit均一より圧倒的に賢く、現時点のローカルLLM 用途では事実上のデファクトです。
代表モデル × 量子化の必要VRAM早見表
本体 VRAM のみ(KVキャッシュは別途加算)です。
| モデル | パラメータ | FP16 | Q8 | Q5_K_M | Q4_K_M |
|---|---|---|---|---|---|
| Llama 3.2 3B | 3B | 6 GB | 3 GB | 2 GB | 1.7 GB |
| Llama 3.1 8B | 8B | 16 GB | 8 GB | 6 GB | 5 GB |
| Mistral Nemo 12B | 12B | 24 GB | 12 GB | 8.5 GB | 7 GB |
| Qwen 2.5 14B | 14B | 28 GB | 14 GB | 10 GB | 8.5 GB |
| Gemma 2 27B | 27B | 54 GB | 27 GB | 19 GB | 16 GB |
| Qwen 2.5 32B | 32B | 64 GB | 32 GB | 23 GB | 19 GB |
| Llama 3.3 70B | 70B | 140 GB | 70 GB | 49 GB | 40 GB |
| DeepSeek-V3 | 671B(37B active) | 1340 GB | 670 GB | 460 GB | 380 GB |
DeepSeek-V3 のような MoE(Mixture of Experts)は、総パラメータ 671B のうち推論時には 37B のみアクティブですが、重みは全部 VRAM に乗せる必要があります(ルーティングがどの専門家を選ぶか動的に決まるため)。なので 671B 級のフルロードには 380GB 以上の VRAM が必要で、コンシューマ機ではほぼ Mac Studio M3 Ultra 192GB を 2台つないでようやく、という世界になります。
VRAM不足のときに何が起きるか
VRAM が足りないときの挙動はランタイムによって違います。
- ollama / llama.cpp:自動で CPU オフロード。動くが速度が 5〜20倍遅くなる。プロンプト処理(prompt eval)が特に遅い
- vLLM / TensorRT-LLM:原則 OOM エラーで起動失敗。
--gpu-memory-utilizationで調整するか、より小さい量子化に切り替える - transformers + bitsandbytes:CUDA OOM。ロード中に落ちる
実用上は「OOM で落ちる > 遅くても動く」のほうが扱いやすい場面が多く、検証段階ではllama.cpp系が選ばれがちです。本番運用に入ったら vLLM のようにきっちりエラーで止めてくれるほうが、トラブルシュート的には筋が良くなります。
Apple Silicon の Unified Memory という別解
Apple Silicon(M3 Ultra / M4 Max)では、CPU と GPU が同じメモリ空間を共有します。これが「Unified Memory」です。M3 Ultra 192GB なら、その全体を GPU が VRAM のように使えます。
NVIDIA 系との実用上の違いは以下の通りです。
| 観点 | RTX 5090 32GB | Mac Studio M3 Ultra 192GB |
|---|---|---|
| 「VRAM」相当 | 32GB | 192GB |
| 帯域幅 | 1.79 TB/s | 800 GB/s |
| 70B Q4 動作 | 本体ギリギリ、KVで溢れる | 余裕、コンテキスト 32k〜128k 可 |
| 70B FP16 動作 | 不可(140GB必要) | 可(192GBに収まる) |
| 消費電力 | 575W | 200W前後 |
| 単純なtok/s | 速い | やや遅い |
帯域は RTX 5090 のほうが2倍以上速く、純粋なトークン速度では NVIDIA が上です。ただし「本来 VRAM に乗らないサイズが乗る」という点で、Mac は別ジャンルの解になります。70B FP16 を電気代ほぼゼロで動かしたい、というニッチな要件にはMac以外の答えがありません。
「Unified Memory は VRAM か?」という疑問への答えは、「VRAMの一形態として扱って問題ない、ただし帯域は専用GPUより劣る」 です。計算式に使う bit 数や量子化の理屈はそのまま当てはまります。
VRAMを見積もる:実用ワークフロー
GPUを買う前、あるいは既存のGPUで動かせるか判断するときの手順です。
- 動かしたいモデルのパラメータ数を確認(例: Llama 3.3 70B → 70B)
- 量子化方式を決める(迷ったら Q4_K_M)
- 本体VRAMを計算:70 × 4 ÷ 8 = 35GB → 実際は +1〜3GB で約 38〜42GB
- コンテキスト長を決め、KVキャッシュを加算:32k なら +14GB
- アクティベーション分として +2GB
- 合計が GPU の VRAM 以下に収まるか確認
たとえば「RTX 5090 32GB で Llama 3.3 70B を動かしたい」なら:
- 本体 Q3_K_M → 約 32GB(ギリギリ)
- KVキャッシュは諦めて 4k まで → +3GB
- → 35GB、合わない
- → KV を q8 量子化にして +1.5GB → 33.5GB、まだギリギリ
- → 32B クラスに落とすか、A6000 48GB に上がるか
という具合に、5090 単体で 70B はかなり厳しい、という結論になります。
まとめ:VRAMは「机の広さ」、量子化は「作業道具の小型化」
VRAMはGPUの作業机で、ローカルLLMを動かす際は「重み + KVキャッシュ + α」が机に乗りきるかが全てを決めます。量子化は重みを小型化することで机に乗せる手段で、Q4_K_M なら多くの場合で実用品質を保ちます。
数字を覚えるなら、最低限以下の3つで十分です。
- 8B モデル:6GB あれば動く(12GB GPU で快適)
- 32B モデル:20GB 前後(24GB GPU で OK)
- 70B モデル:40GB 前後(48GB 級が必要、KV含めると 56GB+)
具体的にどのGPUでどのモデルが動くかは、別記事「ローカルLLMを動かすPCの最低スペック 2026年版」で構成例ごとに整理しています。GPUを買う段階に入ったらそちらをどうぞ。
よくある質問
Q. VRAM とシステムメモリ(DDR)の違いは?
A. VRAM は GPU 専用の高速メモリで、推論時にモデル重みと KV キャッシュを乗せる場所です。システムメモリ(DDR4/DDR5)は CPU 側のメモリで、GPU からのアクセスは PCIe 経由になり数十倍遅くなります。VRAM に乗りきらない場合は「オフロード」してシステムメモリを使えますが、速度は劇的に落ちます。
Q. Q4 と Q8 で品質はどれくらい違う?
A. ベンチマークスコアでは数% の差ですが、長文生成や論理推論の安定感に体感差が出ます。短いコード補完や雑談用途なら Q4_K_M で十分、業務エージェントとして 24 時間運用するなら Q8 を選ぶ価値があります。Q3 まで落とすと長文での論理が時々崩れる、というのが体感のコンセンサスです。
Q. 70B モデルは何GB の VRAM があれば動く?
A. Q4_K_M で約 40GB(重みのみ)、KV キャッシュを含めると 4K context で 44GB、32K context で 56GB 以上必要です。RTX 5090 (32GB) では Q4 が KV キャッシュ込みでギリギリ、RTX PRO 6000 (96GB) なら FP16 まで余裕があります。Mac Studio M3 Ultra (192GB+) なら Unified Memory のおかげで FP16 も動きます。
Q. KV キャッシュとは何ですか?
A. Transformer モデルが過去のトークンを思い出すための作業メモリです。コンテキスト長に比例してメモリ消費が増えます。例えば Llama 3.3 70B Q4 で 32K context だと KV キャッシュだけで 16GB 級、128K context では 50GB 級になり、巨大コンテキスト用途では VRAM 容量が深刻に効いてきます。
Q. RTX 4090 (24GB) と RTX 5090 (32GB) の VRAM 8GB 差はそんなに重要?
A. 70B モデルを動かすかどうかで決定的に変わります。24GB では 70B Q4 が KV キャッシュ込みで溢れ、コンテキスト長を切り詰めるかオフロードが必要。32GB なら 70B Q4 が無理なく乗ります。8B〜32B クラスのモデルしか使わないなら 4090 で十分です。
あなたに合うPCを診断する
用途や予算をもう少し細かく入力すると、3つの候補構成を提案します。
→ 診断スタート