VRAM 8GB でローカルLLMはどこまで動く？

7-8B クラスを Q4_K_M（実ファイル 4.5GB 前後）で動かすのが現実的なラインです。コンテキストを 4K〜8K に抑えれば 12〜14B Q4 もぎりぎり乗りますが、KV キャッシュで上振れするとオフロードが発生して速度が落ちます。8GB は「軽量モデルを快適に」が基本姿勢で、14B 以上を狙うなら 16GB 以上を推奨します。

70B クラスのモデルを動かすには何 GB 必要？

70B を Q4_K_M（実ファイル約 42GB）で動かすなら、KV キャッシュとオーバーヘッドを含めて 48GB 以上の VRAM / Unified Memory が安全圏です。RTX 5090（32GB）単体では収まらず、48GB 級なら Mac（64GB 以上）や Strix Halo 128GB、複数 GPU 構成が選択肢になります。Q8 まで上げるなら 80GB 級が必要です。

MoE モデルは active parameter が小さいのに、なぜ大容量メモリが要る？

active parameter は 1 トークン生成あたりの演算量（=速度）を決めますが、推論時にはどのエキスパートが選ばれるか分からないため、総パラメータ分の重みをすべてメモリに常駐させておく必要があります。たとえば Llama 4 Scout は active 17B でも総 109B 分、DeepSeek V3.2 は active 37B でも総 671B 分の VRAM を要します。「速いが軽いわけではない」のが MoE の要点です。

ローカルLLM メモリ容量別動かせるモデル早見表 2026年版：8GB / 16GB / 24GB / 48GB / 128GB で何B・どの量子化まで動くか

本記事は Amazon.co.jp および各販売店のアフィリエイトリンクを含む場合があります。推奨は性能・コスパ・実機ベンチマーク基準で編集判断しており、提供記事は受け付けていません。詳細はプライバシーポリシーをご覧ください。

ローカルLLM メモリ容量別動かせるモデル早見表 2026:8GBから128GBまで何Bが動くか

結論：ローカルLLM で動かせるモデルは、ほぼ「メモリ容量」だけで決まります。ざっくり目安は、8GB で 7-8B（Q4）、16GB で 14B（Q4）、24GB で 32B（Q4）、48GB で 70B（Q4）、128GB で 70B（Q8）または巨大 MoE の一部。量子化を Q4_K_M に揃えると「モデルの B 数 × 0.6 ≒ 必要 GB」が暗算の出発点になります。MoE（Llama 4 / DeepSeek V3.2 / Qwen3）は active が小さくても総パラメータ分のメモリが要る点だけ注意してください。

「自分の PC でどのモデルが動くのか」。ローカル LLM を始めるとき、ほぼ全員がここで止まります。モデルの良し悪しよりも先に、まず「乗るか乗らないか」が決まってしまうからです。そして乗るかどうかを決めるのは、CPU の速さでも GPU の世代でもなく、搭載メモリ（VRAM もしくは Unified Memory）の容量です。

この記事は、8GB から 128GB まで、各容量で「実用になるモデルサイズ」と「量子化レベル」を一枚の早見表に落とし込んだ逆引きハブです。手元の PC のメモリ容量から、動かせるモデルを即座に引けるようにします。容量別の結論だけ知りたい人は、次の早見表をブックマークしてください。

メモリ容量別動かせるモデル早見表

縦軸が搭載メモリ容量、横軸がモデル規模です。○＝快適に動く、△＝コンテキストを切り詰めれば動く／速度に妥協、空欄＝非現実的、を表します。量子化は GGUF で最も使われる Q4_K_M を基準にしています。

容量	7-8B	14B	27-32B	70B	100B超 MoE
8 GB	○ Q4	△ Q4（短文脈）
12 GB	○ Q5/Q8	○ Q4	△ Q3（厳しい）
16 GB	○ Q8	○ Q5	△ Q4（短文脈）
24 GB	○ Q8	○ Q8	○ Q4	△（オフロード）
32 GB	○ Q8	○ Q8	○ Q5	△ Q3（妥協）
48 GB	○	○	○ Q8	○ Q4
64 GB	○	○	○	○ Q4/Q5	△（一部）
96 GB	○	○	○	○ Q6	△ Q4
128 GB	○	○	○	○ Q8	○ Q4（条件付き）

ポイントは 3 つです。

24GB が「32B の壁」：RTX 4090 / 5090 級の 24〜32GB は 32B クラスを快適に動かせる最初のラインです。
48GB が「70B の壁」：70B Q4（約 42GB）が単一デバイスに収まる最小ライン。ここから Mac 64GB / Strix Halo / 複数 GPU の世界に入ります。
128GB が「巨大 MoE の入り口」：Llama 4 Scout や DeepSeek の量子化版が「条件付きで」動き始めます。

必要メモリの暗算ルール：B 数 × 量子化係数

早見表の根拠になっている計算は単純です。モデルの重み（パラメータ）が占めるメモリは、おおむね次で求まります。

必要メモリ（GB）≒ パラメータ数（B）× 1 パラメータあたりのバイト数

量子化レベルごとの「1 パラメータあたりのバイト数」は次の通りです。

量子化	bits/param	係数（GB/B）	用途
FP16（無圧縮）	16	約 2.0	学習・最高精度
Q8_0	8	約 1.06	精度劣化ほぼ無し
Q6_K	6	約 0.82	高精度・実用上限
Q5_K_M	5	約 0.70	精度と容量のバランス
Q4_K_M	4	約 0.60	最も使われる標準
Q3_K_M	3	約 0.48	容量優先・劣化目立つ

たとえば 14B モデルを Q4_K_M で動かすなら、14 × 0.6 ≒ 8.4GB。これに後述の KV キャッシュとランタイムのオーバーヘッド（1〜2GB）を足すと、16GB 機なら余裕、12GB 機ならぎりぎり、という早見表の判定になります。

Q4_K_M を基準にすると「B 数の約 6 割が GB」。この一言を覚えておけば、新しいモデルが出ても手元の容量で動くか即判断できます。量子化フォーマット別の速度・精度差そのものは「量子化フォーマット別推論速度ベンチマーク」系の記事も参考にしてください。

見落とされがちな KV キャッシュ（コンテキスト長）

早見表で「△ 短文脈」と書いた箇所の正体が、KV キャッシュです。これはモデル本体とは別に、コンテキスト（入力＋生成済みトークン）を保持するためのメモリで、コンテキストを長くするほど線形に増えます。

7-8B クラスでも 32K コンテキストを開くと KV キャッシュだけで数 GB を食うことがあり、「モデルは乗ったのに長文を投げたら落ちた」という事故の大半はこれです。容量がぎりぎりの構成では、まずコンテキストを 4K〜8K に絞って動作確認するのが定石です。

詳しい計算は「ローカルLLM のコンテキスト長と VRAM・KV キャッシュ」で扱っています。VRAM そのものの概念は「VRAM とは何か。ローカルLLM 推論に必要な量の決まり方」を、容量だけでなく帯域が速度を決める仕組みは「メモリ帯域とローカルLLM の tok/sec」を合わせて読むと、早見表の数字の背景まで理解できます。

2026年の主役は MoE：active が小さくても容量は総パラメータ分

2026 年に主流化したのが MoE（Mixture of Experts） 系のモデルです。ここが早見表で一番誤解されるポイントなので、独立して説明します。

モデル	総パラメータ	active parameter	Q4 実ファイル目安
Qwen3 30B-A3B	30B	3B	約 18GB
Llama 4 Scout	109B	17B	約 65GB
Qwen3 235B-A22B	235B	22B	約 140GB
Llama 4 Maverick	400B	17B	約 240GB
DeepSeek V3.2	671B	37B	約 400GB

MoE は「全パラメータのうち一部のエキスパートだけを発火させて推論する」アーキテクチャです。これにより 演算量（=速度）は active parameter 相当 で済みますが、推論時にどのエキスパートが選ばれるか事前に分からないため、総パラメータ分の重みを全部メモリに常駐させる必要があります。

つまり Llama 4 Scout は「17B 並みの速度で動くが、メモリは 109B 分（Q4 で約 65GB）要る」。「active が小さい＝軽い」ではないのです。この勘違いで「3B active なら 8GB で動くだろう」と買って動かない、が頻発しています。MoE は速いが軽くはない。これだけは早見表とセットで覚えてください。

MoE がなぜ「巨大でも速い」のか、必要 VRAM の考え方の詳細は「ローカルLLMの MoE（Mixture of Experts）とは」で図解しています。

容量別・現実的な構成例

早見表の各ラインに対応する、2026 年 6 月時点の現実的なハードの選び方です。

8〜16GB：まず試すゾーン（RTX 4060 Ti 16GB / 4070）

7-8B〜14B を Q4〜Q5 で動かす入門帯。ゲーミング用に組んだ GPU でそのまま始められます。「ローカル LLM がどんなものか試したい」なら、ここからで十分です。

24〜32GB：実用ゾーン（RTX 4090 / 5090）

32B クラスがコンテキスト込みで快適に回る、実用の中心。コーディング補助や日常的なアシスタント用途なら、このゾーンの単一 GPU が費用対効果のピークです。

48〜128GB：70B 以上／大容量ゾーン（Mac / Strix Halo / 複数 GPU）

70B Q4 以上を 1 台で動かすには、ここから 3 つの道に分かれます。

アプローチ	代表機	強み	弱み
Apple Silicon	Mac Studio M4 Max / M3 Ultra	帯域が高く 70B が速い	macOS 専用・高価
AMD Strix Halo	Ryzen AI MAX+ 395 機	x86 で 96GB VRAM 化・安価	帯域は Mac に劣る
NVIDIA 複数 GPU	RTX 5090 ×2 等	演算最速・学習も可	消費電力・設置・コスト

それぞれの実測値は「Strix Halo ローカルLLM 実機ベンチマーク」「Mac Studio M4 Max vs M3 Ultra LLMベンチマーク」「デュアル RTX 5090 マルチGPU LLMベンチマーク」で詳しく扱っています。

まとめ：容量から逆引きすれば迷わない

ローカル LLM の可否は、ほぼ 搭載メモリ容量 で決まる
Q4_K_M 基準なら 「B 数の約 6 割が GB」 が暗算の出発点
壁は 24GB（32B）/ 48GB（70B）/ 128GB（巨大 MoE） の 3 つ
KV キャッシュ（コンテキスト長）で必要量は上振れする。ぎりぎりの構成は短文脈から
MoE は active が小さくても 総パラメータ分のメモリが要る（速いが軽くない）

まず手元の PC のメモリ容量を早見表に当てて、動くモデルの当たりを付ける。そこから「もっと大きいモデルを動かしたい」なら容量を増やす、という順で考えれば、ハード選びで迷うことはなくなります。

入手先・関連商品

当サイトは Amazon.co.jp アソシエイト・プログラムに参加予定です。下記リンク経由で購入された場合、紹介料を受け取ることがあります。読者の負担は増えません。リンクは記事評価とは独立しており、編集判断には影響しません。

8〜16GB クラス（入門）：GeForce RTX 4060 Ti 16GB を Amazon.co.jp で見る。容量重視でコスパの良い 16GB 機で、14B Q4 まで快適
24〜32GB クラス（実用）：GeForce RTX 5090 を Amazon.co.jp で見る。32GB GDDR7 で 32B クラスを快適に回す単体最速ライン
48〜128GB クラス（70B 以上）：Mac Studio M4 Max を Amazon.co.jp で見る。高帯域で 70B が速い大容量 Unified Memory

あなたに合うPCを診断する

用途や予算をもう少し細かく入力すると、3つの候補構成を提案します。

→ 診断スタート

ローカルLLMを動かすPCの最低スペック 2026年版：「70Bが動くまで」を単一ゴールで解説。本記事の全レンジ早見表と合わせて読むと境界が分かる
ローカルLLM モデルの選び方ガイド 2026年版：用途軸でどのモデルを選ぶか
ローカルLLMの MoE（Mixture of Experts）とは 2026年版：巨大でも速い理由と必要VRAMの考え方
Mac Studio ローカルLLM 運用ガイド 2026年版：大容量 Unified Memory で 70B を動かす実践

メモリ容量別 動かせるモデル早見表