VRAMとは何か。ローカルLLM推論で必要な量の決まり方 2026年版

本記事は Amazon.co.jp および各販売店のアフィリエイトリンクを含む場合があります。推奨は性能・コスパ・実機ベンチマーク基準で編集判断しており、提供記事は受け付けていません。詳細はプライバシーポリシーをご覧ください。

VRAMとは何か：モデル本体 + KVキャッシュで必要量が決まる（2026年5月版）

結論：ローカルLLMの必要VRAMは「モデル本体」と「KVキャッシュ」の合計でほぼ決まります。 70B クラスを 4bit 量子化で動かすなら本体だけで約 40GB、32k コンテキストの会話履歴を持たせるなら +14GB ほど、合計 48〜56GB を見ておくのが現実的です。8B 級なら本体 6GB + α なので 12GB GPU でも普通に走ります。

この記事では、なぜそのVRAM量が必要になるのかを、計算式と量子化方式・KVキャッシュの仕組みから整理します。GPUを買う前にこのページに戻ってきて、自分が動かしたいモデルの必要量を1分で見積もれるところを目指します。

VRAMとは：GPU専用の作業机

VRAM（Video RAM）は GPU に直結された専用メモリです。CPU が使うシステムRAMとは経路が分かれており、GPU 演算ユニットからは桁違いに速くアクセスできます。

ざっくり言えば、システムRAMが棚で、VRAMが机 です。LLM 推論では、モデルの重みを机の上に広げて、トークンを生成するたびに机のいろんな場所を高速で参照します。机に乗りきらないとき、棚から都度持ってこなければならず、推論速度は経験則で5〜20倍遅くなります（CPUオフロード時の挙動）。

世代別の VRAM の中身は以下の通りです。

世代	主な搭載GPU	帯域幅の目安
GDDR6	RTX 3060 / 3090 / 4060	360〜936 GB/s
GDDR6X	RTX 3080 / 3090 Ti / 4080 / 4090	760〜1008 GB/s
GDDR7	RTX 5080 / 5090	960〜1792 GB/s
HBM3 / HBM3e	H100 / H200 / B200	3.35〜4.8 TB/s
Unified Memory（LPDDR5X）	Mac Studio M3 Ultra	800 GB/s

帯域が広いほどトークン生成が速くなります。GDDR7 の RTX 5090 は前世代 4090 比で約 78% の帯域向上、データセンタ向け H100 はさらに桁違いです。

必要VRAMを決める3つの要素

LLM 推論で VRAM を食う要素はだいたい3つに分かれます。

モデル本体（重み）：パラメータ × bit数 ÷ 8
KVキャッシュ：コンテキスト長に比例して増える会話履歴
アクティベーション・ワーキングメモリ：推論中の中間計算用、おおむね数 GB

このうちサイズ感が大きく動くのは本体と KVキャッシュ です。アクティベーションは経験則で 1〜3GB ぐらいの上乗せと考えれば、ざっくり計算で困りません。

モデル本体のVRAM計算式

基本は単純です。

モデル本体VRAM(GB) ≒ パラメータ数(B) × ビット幅(bit) ÷ 8

たとえば Llama 3.3 70B を量子化方式別に並べるとこうなります。

量子化	bit幅	70B 本体VRAM	8B 本体VRAM
FP16	16	約 140 GB	約 16 GB
Q8_0	8	約 70 GB	約 8 GB
Q5_K_M	5	約 49 GB	約 6 GB
Q4_K_M	4	約 39〜42 GB	約 5 GB
Q3_K_M	3	約 32 GB	約 4 GB

Llama 3.3 70B Q4_K_M は実測 39〜42GB と、計測ツールやランタイムによって誤差が出ます。これはモデル中の埋め込み層など量子化されない部分が一定量残るためで、計算上の 35GB（70 × 4 ÷ 8）より少し膨らみます。「計算式 + 1〜3GB」で見積もるのがちょうど良いラインです。

KVキャッシュ：コンテキスト長で爆発する変数

LLM は会話履歴やシステムプロンプトを「Key/Value」テンソルとして VRAM に保持しながら推論します。これがKVキャッシュで、コンテキスト長に比例して線形に増えます。

70B モデル（GQA構成）のKVキャッシュの目安はこうです。

コンテキスト長	KVキャッシュ
2k tokens	約 1.6 GB
8k tokens	約 6 GB
32k tokens	約 14 GB
128k tokens	40 GB 超

つまり 70B Q4_K_M を 32k コンテキストで動かすなら、本体 40GB + KV 14GB ≒ 54GB が現実的な必要量です。RTX 5090 32GB の単体では足りず、RTX A6000 48GB ですら 32k は厳しい、という構図になります。

KVキャッシュは ollama / llama.cpp で 量子化 できます。OLLAMA_KV_CACHE_TYPE=q8_0 を指定すると KV を 8bit 量子化し、メモリ消費を半減させられます。品質劣化はほぼ知覚できないレベルなので、VRAMが厳しいときの最初の一手として効きます。

量子化方式の早見表

「量子化」とは、本来 16bit 浮動小数点で持つ重みを、より少ないビット数で近似する手法です。容量を削るほど品質が落ちますが、最近のフォーマットは賢いので、Q4_K_M ぐらいまでなら多くの用途で違いを感じません。

フォーマット	平均bit幅	特徴
FP16 / BF16	16	量子化なし。学習時の元データ
Q8_0	8	ほぼロスレス、容量半減
Q5_K_M	5.5	高品質、Q4 より精度重視
Q4_K_M	4.5	消費者ハードでの定番
Q3_K_M	3.4	やや論理が崩れることも
AWQ (4bit)	4	NVIDIA 系で速い、TensorRT-LLM 互換
GPTQ (4bit)	4	AWQ 以前の定番、サポート広い

Q4_K_M のように _K_M が付くものは「K-quants ミディアム」と呼ばれる llama.cpp 系のフォーマットで、層ごとに重要度の高いところは 5〜6bit、それ以外は 3〜4bit と可変で量子化されます。単純な4bit均一より圧倒的に賢く、現時点のローカルLLM 用途では事実上のデファクトです。

代表モデル × 量子化の必要VRAM早見表

本体 VRAM のみ（KVキャッシュは別途加算）です。

モデル	パラメータ	FP16	Q8	Q5_K_M	Q4_K_M
Llama 3.2 3B	3B	6 GB	3 GB	2 GB	1.7 GB
Llama 3.1 8B	8B	16 GB	8 GB	6 GB	5 GB
Mistral Nemo 12B	12B	24 GB	12 GB	8.5 GB	7 GB
Qwen 2.5 14B	14B	28 GB	14 GB	10 GB	8.5 GB
Gemma 2 27B	27B	54 GB	27 GB	19 GB	16 GB
Qwen 2.5 32B	32B	64 GB	32 GB	23 GB	19 GB
Llama 3.3 70B	70B	140 GB	70 GB	49 GB	40 GB
DeepSeek-V3	671B（37B active）	1340 GB	670 GB	460 GB	380 GB

DeepSeek-V3 のような MoE（Mixture of Experts）は、総パラメータ 671B のうち推論時には 37B のみアクティブですが、重みは全部 VRAM に乗せる必要があります（ルーティングがどの専門家を選ぶか動的に決まるため）。なので 671B 級のフルロードには 380GB 以上の VRAM が必要で、コンシューマ機ではほぼ Mac Studio M3 Ultra 192GB を 2台つないでようやく、という世界になります。

VRAM不足のときに何が起きるか

VRAM が足りないときの挙動はランタイムによって違います。

ollama / llama.cpp：自動で CPU オフロード。動くが速度が 5〜20倍遅くなる。プロンプト処理（prompt eval）が特に遅い
vLLM / TensorRT-LLM：原則 OOM エラーで起動失敗。--gpu-memory-utilization で調整するか、より小さい量子化に切り替える
transformers + bitsandbytes：CUDA OOM。ロード中に落ちる

実用上は「OOM で落ちる > 遅くても動く」のほうが扱いやすい場面が多く、検証段階ではllama.cpp系が選ばれがちです。本番運用に入ったら vLLM のようにきっちりエラーで止めてくれるほうが、トラブルシュート的には筋が良くなります。

Apple Silicon の Unified Memory という別解

Apple Silicon（M3 Ultra / M4 Max）では、CPU と GPU が同じメモリ空間を共有します。これが「Unified Memory」です。M3 Ultra 192GB なら、その全体を GPU が VRAM のように使えます。

NVIDIA 系との実用上の違いは以下の通りです。

観点	RTX 5090 32GB	Mac Studio M3 Ultra 192GB
「VRAM」相当	32GB	192GB
帯域幅	1.79 TB/s	800 GB/s
70B Q4 動作	本体ギリギリ、KVで溢れる	余裕、コンテキスト 32k〜128k 可
70B FP16 動作	不可（140GB必要）	可（192GBに収まる）
消費電力	575W	200W前後
単純なtok/s	速い	やや遅い

帯域は RTX 5090 のほうが2倍以上速く、純粋なトークン速度では NVIDIA が上です。ただし「本来 VRAM に乗らないサイズが乗る」という点で、Mac は別ジャンルの解になります。70B FP16 を電気代ほぼゼロで動かしたい、というニッチな要件にはMac以外の答えがありません。

「Unified Memory は VRAM か？」という疑問への答えは、「VRAMの一形態として扱って問題ない、ただし帯域は専用GPUより劣る」 です。計算式に使う bit 数や量子化の理屈はそのまま当てはまります。

VRAMを見積もる：実用ワークフロー

GPUを買う前、あるいは既存のGPUで動かせるか判断するときの手順です。

動かしたいモデルのパラメータ数を確認（例: Llama 3.3 70B → 70B）
量子化方式を決める（迷ったら Q4_K_M）
本体VRAMを計算：70 × 4 ÷ 8 = 35GB → 実際は +1〜3GB で約 38〜42GB
コンテキスト長を決め、KVキャッシュを加算：32k なら +14GB
アクティベーション分として +2GB
合計が GPU の VRAM 以下に収まるか確認

たとえば「RTX 5090 32GB で Llama 3.3 70B を動かしたい」なら：

本体 Q3_K_M → 約 32GB（ギリギリ）
KVキャッシュは諦めて 4k まで → +3GB
→ 35GB、合わない
→ KV を q8 量子化にして +1.5GB → 33.5GB、まだギリギリ
→ 32B クラスに落とすか、A6000 48GB に上がるか

という具合に、5090 単体で 70B はかなり厳しい、という結論になります。

まとめ：VRAMは「机の広さ」、量子化は「作業道具の小型化」

VRAMはGPUの作業机で、ローカルLLMを動かす際は「重み + KVキャッシュ + α」が机に乗りきるかが全てを決めます。量子化は重みを小型化することで机に乗せる手段で、Q4_K_M なら多くの場合で実用品質を保ちます。

数字を覚えるなら、最低限以下の3つで十分です。

8B モデル：6GB あれば動く（12GB GPU で快適）
32B モデル：20GB 前後（24GB GPU で OK）
70B モデル：40GB 前後（48GB 級が必要、KV含めると 56GB+）

具体的にどのGPUでどのモデルが動くかは、別記事「ローカルLLMを動かすPCの最低スペック 2026年版」で構成例ごとに整理しています。GPUを買う段階に入ったらそちらをどうぞ。

NVIDIA RTX 5090 を Amazon で見る

よくある質問

Q. VRAM とシステムメモリ（DDR）の違いは？

A. VRAM は GPU 専用の高速メモリで、推論時にモデル重みと KV キャッシュを乗せる場所です。システムメモリ（DDR4/DDR5）は CPU 側のメモリで、GPU からのアクセスは PCIe 経由になり数十倍遅くなります。VRAM に乗りきらない場合は「オフロード」してシステムメモリを使えますが、速度は劇的に落ちます。

Q. Q4 と Q8 で品質はどれくらい違う？

A. ベンチマークスコアでは数% の差ですが、長文生成や論理推論の安定感に体感差が出ます。短いコード補完や雑談用途なら Q4_K_M で十分、業務エージェントとして 24 時間運用するなら Q8 を選ぶ価値があります。Q3 まで落とすと長文での論理が時々崩れる、というのが体感のコンセンサスです。

Q. 70B モデルは何GB の VRAM があれば動く？

A. Q4_K_M で約 40GB（重みのみ）、KV キャッシュを含めると 4K context で 44GB、32K context で 56GB 以上必要です。RTX 5090 (32GB) では Q4 が KV キャッシュ込みでギリギリ、RTX PRO 6000 (96GB) なら FP16 まで余裕があります。Mac Studio M3 Ultra (192GB+) なら Unified Memory のおかげで FP16 も動きます。

Q. KV キャッシュとは何ですか？

A. Transformer モデルが過去のトークンを思い出すための作業メモリです。コンテキスト長に比例してメモリ消費が増えます。例えば Llama 3.3 70B Q4 で 32K context だと KV キャッシュだけで 16GB 級、128K context では 50GB 級になり、巨大コンテキスト用途では VRAM 容量が深刻に効いてきます。

Q. RTX 4090 (24GB) と RTX 5090 (32GB) の VRAM 8GB 差はそんなに重要？

A. 70B モデルを動かすかどうかで決定的に変わります。24GB では 70B Q4 が KV キャッシュ込みで溢れ、コンテキスト長を切り詰めるかオフロードが必要。32GB なら 70B Q4 が無理なく乗ります。8B〜32B クラスのモデルしか使わないなら 4090 で十分です。

あなたに合うPCを診断する

用途や予算をもう少し細かく入力すると、3つの候補構成を提案します。

→ 診断スタート

ローカルLLMを動かすPCの最低スペック 2026年版

VRAMとは：GPU専用の作業机

必要VRAMを決める3つの要素

モデル本体のVRAM計算式

KVキャッシュ：コンテキスト長で爆発する変数

量子化方式の早見表

代表モデル × 量子化の必要VRAM早見表

VRAM不足のときに何が起きるか

Apple Silicon の Unified Memory という別解

VRAMを見積もる：実用ワークフロー

まとめ：VRAMは「机の広さ」、量子化は「作業道具の小型化」

よくある質問

Q. VRAM とシステムメモリ（DDR）の違いは？

Q. Q4 と Q8 で品質はどれくらい違う？

Q. 70B モデルは何GB の VRAM があれば動く？

Q. KV キャッシュとは何ですか？

Q. RTX 4090 (24GB) と RTX 5090 (32GB) の VRAM 8GB 差はそんなに重要？

あなたに合うPCを診断する

関連記事

よくある質問