ローカルLLM メモリ容量別 動かせるモデル早見表 2026年版:8GB / 16GB / 24GB / 48GB / 128GB で何B・どの量子化まで動くか
ローカルLLMはVRAM・Unified Memory容量で動かせるモデルが決まります。8GBから128GBまで、各容量で実用になるモデルサイズと量子化(Q4/Q5/Q8)を早見表化。Llama 4・Qwen3・DeepSeek V3.2まで含め、自分のPCで何が動くか即判断できるハブ記事です。
- #ローカルLLM
- #VRAM
- #Unified Memory
- #量子化
- #Llama 4
- #Qwen3
- #DeepSeek
- #メモリ容量
- #早見表
- #GGUF
本記事は Amazon.co.jp および各販売店のアフィリエイトリンクを含む場合があります。推奨は性能・コスパ・実機ベンチマーク基準で編集判断しており、提供記事は受け付けていません。詳細は プライバシーポリシー をご覧ください。

結論:ローカルLLM で動かせるモデルは、ほぼ「メモリ容量」だけで決まります。ざっくり目安は、8GB で 7-8B(Q4)、16GB で 14B(Q4)、24GB で 32B(Q4)、48GB で 70B(Q4)、128GB で 70B(Q8)または巨大 MoE の一部。量子化を Q4_K_M に揃えると「モデルの B 数 × 0.6 ≒ 必要 GB」が暗算の出発点になります。MoE(Llama 4 / DeepSeek V3.2 / Qwen3)は active が小さくても総パラメータ分のメモリが要る点だけ注意してください。
「自分の PC でどのモデルが動くのか」。ローカル LLM を始めるとき、ほぼ全員がここで止まります。モデルの良し悪しよりも先に、まず「乗るか乗らないか」が決まってしまうからです。そして乗るかどうかを決めるのは、CPU の速さでも GPU の世代でもなく、搭載メモリ(VRAM もしくは Unified Memory)の容量です。
この記事は、8GB から 128GB まで、各容量で「実用になるモデルサイズ」と「量子化レベル」を一枚の早見表に落とし込んだ逆引きハブです。手元の PC のメモリ容量から、動かせるモデルを即座に引けるようにします。容量別の結論だけ知りたい人は、次の早見表をブックマークしてください。
メモリ容量別 動かせるモデル早見表
縦軸が搭載メモリ容量、横軸がモデル規模です。○=快適に動く、△=コンテキストを切り詰めれば動く/速度に妥協、空欄=非現実的、を表します。量子化は GGUF で最も使われる Q4_K_M を基準にしています。
| 容量 | 7-8B | 14B | 27-32B | 70B | 100B超 MoE |
|---|---|---|---|---|---|
| 8 GB | ○ Q4 | △ Q4(短文脈) | |||
| 12 GB | ○ Q5/Q8 | ○ Q4 | △ Q3(厳しい) | ||
| 16 GB | ○ Q8 | ○ Q5 | △ Q4(短文脈) | ||
| 24 GB | ○ Q8 | ○ Q8 | ○ Q4 | △(オフロード) | |
| 32 GB | ○ Q8 | ○ Q8 | ○ Q5 | △ Q3(妥協) | |
| 48 GB | ○ | ○ | ○ Q8 | ○ Q4 | |
| 64 GB | ○ | ○ | ○ | ○ Q4/Q5 | △(一部) |
| 96 GB | ○ | ○ | ○ | ○ Q6 | △ Q4 |
| 128 GB | ○ | ○ | ○ | ○ Q8 | ○ Q4(条件付き) |
ポイントは 3 つです。
- 24GB が「32B の壁」:RTX 4090 / 5090 級の 24〜32GB は 32B クラスを快適に動かせる最初のラインです。
- 48GB が「70B の壁」:70B Q4(約 42GB)が単一デバイスに収まる最小ライン。ここから Mac 64GB / Strix Halo / 複数 GPU の世界に入ります。
- 128GB が「巨大 MoE の入り口」:Llama 4 Scout や DeepSeek の量子化版が「条件付きで」動き始めます。
必要メモリの暗算ルール:B 数 × 量子化係数
早見表の根拠になっている計算は単純です。モデルの重み(パラメータ)が占めるメモリは、おおむね次で求まります。
必要メモリ(GB)≒ パラメータ数(B)× 1 パラメータあたりのバイト数
量子化レベルごとの「1 パラメータあたりのバイト数」は次の通りです。
| 量子化 | bits/param | 係数(GB/B) | 用途 |
|---|---|---|---|
| FP16(無圧縮) | 16 | 約 2.0 | 学習・最高精度 |
| Q8_0 | 8 | 約 1.06 | 精度劣化ほぼ無し |
| Q6_K | 6 | 約 0.82 | 高精度・実用上限 |
| Q5_K_M | 5 | 約 0.70 | 精度と容量のバランス |
| Q4_K_M | 4 | 約 0.60 | 最も使われる標準 |
| Q3_K_M | 3 | 約 0.48 | 容量優先・劣化目立つ |
たとえば 14B モデルを Q4_K_M で動かすなら、14 × 0.6 ≒ 8.4GB。これに後述の KV キャッシュとランタイムのオーバーヘッド(1〜2GB)を足すと、16GB 機なら余裕、12GB 機ならぎりぎり、という早見表の判定になります。
Q4_K_M を基準にすると「B 数の約 6 割が GB」。この一言を覚えておけば、新しいモデルが出ても手元の容量で動くか即判断できます。量子化フォーマット別の速度・精度差そのものは「量子化フォーマット別 推論速度ベンチマーク」系の記事も参考にしてください。
見落とされがちな KV キャッシュ(コンテキスト長)
早見表で「△ 短文脈」と書いた箇所の正体が、KV キャッシュです。これはモデル本体とは別に、コンテキスト(入力+生成済みトークン)を保持するためのメモリで、コンテキストを長くするほど線形に増えます。
7-8B クラスでも 32K コンテキストを開くと KV キャッシュだけで数 GB を食うことがあり、「モデルは乗ったのに長文を投げたら落ちた」という事故の大半はこれです。容量がぎりぎりの構成では、まずコンテキストを 4K〜8K に絞って動作確認するのが定石です。
詳しい計算は「ローカルLLM のコンテキスト長と VRAM・KV キャッシュ」で扱っています。VRAM そのものの概念は「VRAM とは何か。ローカルLLM 推論に必要な量の決まり方」を、容量だけでなく帯域が速度を決める仕組みは「メモリ帯域とローカルLLM の tok/sec」を合わせて読むと、早見表の数字の背景まで理解できます。
2026年の主役は MoE:active が小さくても容量は総パラメータ分
2026 年に主流化したのが MoE(Mixture of Experts) 系のモデルです。ここが早見表で一番誤解されるポイントなので、独立して説明します。
| モデル | 総パラメータ | active parameter | Q4 実ファイル目安 |
|---|---|---|---|
| Qwen3 30B-A3B | 30B | 3B | 約 18GB |
| Llama 4 Scout | 109B | 17B | 約 65GB |
| Qwen3 235B-A22B | 235B | 22B | 約 140GB |
| Llama 4 Maverick | 400B | 17B | 約 240GB |
| DeepSeek V3.2 | 671B | 37B | 約 400GB |
MoE は「全パラメータのうち一部のエキスパートだけを発火させて推論する」アーキテクチャです。これにより 演算量(=速度)は active parameter 相当 で済みますが、推論時にどのエキスパートが選ばれるか事前に分からないため、総パラメータ分の重みを全部メモリに常駐させる必要があります。
つまり Llama 4 Scout は「17B 並みの速度で動くが、メモリは 109B 分(Q4 で約 65GB)要る」。「active が小さい=軽い」ではないのです。この勘違いで「3B active なら 8GB で動くだろう」と買って動かない、が頻発しています。MoE は速いが軽くはない。これだけは早見表とセットで覚えてください。
MoE がなぜ「巨大でも速い」のか、必要 VRAM の考え方の詳細は「ローカルLLMの MoE(Mixture of Experts)とは」で図解しています。
容量別・現実的な構成例
早見表の各ラインに対応する、2026 年 6 月時点の現実的なハードの選び方です。
8〜16GB:まず試すゾーン(RTX 4060 Ti 16GB / 4070)
7-8B〜14B を Q4〜Q5 で動かす入門帯。ゲーミング用に組んだ GPU でそのまま始められます。「ローカル LLM がどんなものか試したい」なら、ここからで十分です。
24〜32GB:実用ゾーン(RTX 4090 / 5090)
32B クラスがコンテキスト込みで快適に回る、実用の中心。コーディング補助や日常的なアシスタント用途なら、このゾーンの単一 GPU が費用対効果のピークです。
48〜128GB:70B 以上/大容量ゾーン(Mac / Strix Halo / 複数 GPU)
70B Q4 以上を 1 台で動かすには、ここから 3 つの道に分かれます。
| アプローチ | 代表機 | 強み | 弱み |
|---|---|---|---|
| Apple Silicon | Mac Studio M4 Max / M3 Ultra | 帯域が高く 70B が速い | macOS 専用・高価 |
| AMD Strix Halo | Ryzen AI MAX+ 395 機 | x86 で 96GB VRAM 化・安価 | 帯域は Mac に劣る |
| NVIDIA 複数 GPU | RTX 5090 ×2 等 | 演算最速・学習も可 | 消費電力・設置・コスト |
それぞれの実測値は「Strix Halo ローカルLLM 実機ベンチマーク」「Mac Studio M4 Max vs M3 Ultra LLMベンチマーク」「デュアル RTX 5090 マルチGPU LLMベンチマーク」で詳しく扱っています。
まとめ:容量から逆引きすれば迷わない
- ローカル LLM の可否は、ほぼ 搭載メモリ容量 で決まる
- Q4_K_M 基準なら 「B 数の約 6 割が GB」 が暗算の出発点
- 壁は 24GB(32B)/ 48GB(70B)/ 128GB(巨大 MoE) の 3 つ
- KV キャッシュ(コンテキスト長)で必要量は上振れする。ぎりぎりの構成は短文脈から
- MoE は active が小さくても 総パラメータ分のメモリが要る(速いが軽くない)
まず手元の PC のメモリ容量を早見表に当てて、動くモデルの当たりを付ける。そこから「もっと大きいモデルを動かしたい」なら容量を増やす、という順で考えれば、ハード選びで迷うことはなくなります。
入手先・関連商品
当サイトは Amazon.co.jp アソシエイト・プログラムに参加予定です。下記リンク経由で購入された場合、紹介料を受け取ることがあります。読者の負担は増えません。リンクは記事評価とは独立しており、編集判断には影響しません。
- 8〜16GB クラス(入門):GeForce RTX 4060 Ti 16GB を Amazon.co.jp で見る。容量重視でコスパの良い 16GB 機で、14B Q4 まで快適
- 24〜32GB クラス(実用):GeForce RTX 5090 を Amazon.co.jp で見る。32GB GDDR7 で 32B クラスを快適に回す単体最速ライン
- 48〜128GB クラス(70B 以上):Mac Studio M4 Max を Amazon.co.jp で見る。高帯域で 70B が速い大容量 Unified Memory
あなたに合うPCを診断する
用途や予算をもう少し細かく入力すると、3つの候補構成を提案します。
→ 診断スタート
関連記事
- ローカルLLMを動かすPCの最低スペック 2026年版:「70Bが動くまで」を単一ゴールで解説。本記事の全レンジ早見表と合わせて読むと境界が分かる
- ローカルLLM モデルの選び方ガイド 2026年版:用途軸でどのモデルを選ぶか
- ローカルLLMの MoE(Mixture of Experts)とは 2026年版:巨大でも速い理由と必要VRAMの考え方
- Mac Studio ローカルLLM 運用ガイド 2026年版:大容量 Unified Memory で 70B を動かす実践