AI開発 ガイド

ローカルLLM メモリ容量別 動かせるモデル早見表 2026年版:8GB / 16GB / 24GB / 48GB / 128GB で何B・どの量子化まで動くか

ローカルLLMはVRAM・Unified Memory容量で動かせるモデルが決まります。8GBから128GBまで、各容量で実用になるモデルサイズと量子化(Q4/Q5/Q8)を早見表化。Llama 4・Qwen3・DeepSeek V3.2まで含め、自分のPCで何が動くか即判断できるハブ記事です。

  • #ローカルLLM
  • #VRAM
  • #Unified Memory
  • #量子化
  • #Llama 4
  • #Qwen3
  • #DeepSeek
  • #メモリ容量
  • #早見表
  • #GGUF

本記事は Amazon.co.jp および各販売店のアフィリエイトリンクを含む場合があります。推奨は性能・コスパ・実機ベンチマーク基準で編集判断しており、提供記事は受け付けていません。詳細は プライバシーポリシー をご覧ください。

ローカルLLM メモリ容量別 動かせるモデル早見表 2026:8GBから128GBまで何Bが動くか

結論:ローカルLLM で動かせるモデルは、ほぼ「メモリ容量」だけで決まります。ざっくり目安は、8GB で 7-8B(Q4)、16GB で 14B(Q4)、24GB で 32B(Q4)、48GB で 70B(Q4)、128GB で 70B(Q8)または巨大 MoE の一部。量子化を Q4_K_M に揃えると「モデルの B 数 × 0.6 ≒ 必要 GB」が暗算の出発点になります。MoE(Llama 4 / DeepSeek V3.2 / Qwen3)は active が小さくても総パラメータ分のメモリが要る点だけ注意してください。

「自分の PC でどのモデルが動くのか」。ローカル LLM を始めるとき、ほぼ全員がここで止まります。モデルの良し悪しよりも先に、まず「乗るか乗らないか」が決まってしまうからです。そして乗るかどうかを決めるのは、CPU の速さでも GPU の世代でもなく、搭載メモリ(VRAM もしくは Unified Memory)の容量です。

この記事は、8GB から 128GB まで、各容量で「実用になるモデルサイズ」と「量子化レベル」を一枚の早見表に落とし込んだ逆引きハブです。手元の PC のメモリ容量から、動かせるモデルを即座に引けるようにします。容量別の結論だけ知りたい人は、次の早見表をブックマークしてください。

メモリ容量別 動かせるモデル早見表

縦軸が搭載メモリ容量、横軸がモデル規模です。○=快適に動く、△=コンテキストを切り詰めれば動く/速度に妥協、空欄=非現実的、を表します。量子化は GGUF で最も使われる Q4_K_M を基準にしています。

容量7-8B14B27-32B70B100B超 MoE
8 GB○ Q4△ Q4(短文脈)
12 GB○ Q5/Q8○ Q4△ Q3(厳しい)
16 GB○ Q8○ Q5△ Q4(短文脈)
24 GB○ Q8○ Q8○ Q4△(オフロード)
32 GB○ Q8○ Q8○ Q5△ Q3(妥協)
48 GB○ Q8○ Q4
64 GB○ Q4/Q5△(一部)
96 GB○ Q6△ Q4
128 GB○ Q8○ Q4(条件付き)

ポイントは 3 つです。

  1. 24GB が「32B の壁」:RTX 4090 / 5090 級の 24〜32GB は 32B クラスを快適に動かせる最初のラインです。
  2. 48GB が「70B の壁」:70B Q4(約 42GB)が単一デバイスに収まる最小ライン。ここから Mac 64GB / Strix Halo / 複数 GPU の世界に入ります。
  3. 128GB が「巨大 MoE の入り口」:Llama 4 Scout や DeepSeek の量子化版が「条件付きで」動き始めます。

必要メモリの暗算ルール:B 数 × 量子化係数

早見表の根拠になっている計算は単純です。モデルの重み(パラメータ)が占めるメモリは、おおむね次で求まります。

必要メモリ(GB)≒ パラメータ数(B)× 1 パラメータあたりのバイト数

量子化レベルごとの「1 パラメータあたりのバイト数」は次の通りです。

量子化bits/param係数(GB/B)用途
FP16(無圧縮)16約 2.0学習・最高精度
Q8_08約 1.06精度劣化ほぼ無し
Q6_K6約 0.82高精度・実用上限
Q5_K_M5約 0.70精度と容量のバランス
Q4_K_M4約 0.60最も使われる標準
Q3_K_M3約 0.48容量優先・劣化目立つ

たとえば 14B モデルを Q4_K_M で動かすなら、14 × 0.6 ≒ 8.4GB。これに後述の KV キャッシュとランタイムのオーバーヘッド(1〜2GB)を足すと、16GB 機なら余裕、12GB 機ならぎりぎり、という早見表の判定になります。

Q4_K_M を基準にすると「B 数の約 6 割が GB」。この一言を覚えておけば、新しいモデルが出ても手元の容量で動くか即判断できます。量子化フォーマット別の速度・精度差そのものは「量子化フォーマット別 推論速度ベンチマーク」系の記事も参考にしてください。

見落とされがちな KV キャッシュ(コンテキスト長)

早見表で「△ 短文脈」と書いた箇所の正体が、KV キャッシュです。これはモデル本体とは別に、コンテキスト(入力+生成済みトークン)を保持するためのメモリで、コンテキストを長くするほど線形に増えます。

7-8B クラスでも 32K コンテキストを開くと KV キャッシュだけで数 GB を食うことがあり、「モデルは乗ったのに長文を投げたら落ちた」という事故の大半はこれです。容量がぎりぎりの構成では、まずコンテキストを 4K〜8K に絞って動作確認するのが定石です。

詳しい計算は「ローカルLLM のコンテキスト長と VRAM・KV キャッシュ」で扱っています。VRAM そのものの概念は「VRAM とは何か。ローカルLLM 推論に必要な量の決まり方」を、容量だけでなく帯域が速度を決める仕組みは「メモリ帯域とローカルLLM の tok/sec」を合わせて読むと、早見表の数字の背景まで理解できます。

2026年の主役は MoE:active が小さくても容量は総パラメータ分

2026 年に主流化したのが MoE(Mixture of Experts) 系のモデルです。ここが早見表で一番誤解されるポイントなので、独立して説明します。

モデル総パラメータactive parameterQ4 実ファイル目安
Qwen3 30B-A3B30B3B約 18GB
Llama 4 Scout109B17B約 65GB
Qwen3 235B-A22B235B22B約 140GB
Llama 4 Maverick400B17B約 240GB
DeepSeek V3.2671B37B約 400GB

MoE は「全パラメータのうち一部のエキスパートだけを発火させて推論する」アーキテクチャです。これにより 演算量(=速度)は active parameter 相当 で済みますが、推論時にどのエキスパートが選ばれるか事前に分からないため、総パラメータ分の重みを全部メモリに常駐させる必要があります。

つまり Llama 4 Scout は「17B 並みの速度で動くが、メモリは 109B 分(Q4 で約 65GB)要る」。「active が小さい=軽い」ではないのです。この勘違いで「3B active なら 8GB で動くだろう」と買って動かない、が頻発しています。MoE は速いが軽くはない。これだけは早見表とセットで覚えてください。

MoE がなぜ「巨大でも速い」のか、必要 VRAM の考え方の詳細は「ローカルLLMの MoE(Mixture of Experts)とは」で図解しています。

容量別・現実的な構成例

早見表の各ラインに対応する、2026 年 6 月時点の現実的なハードの選び方です。

8〜16GB:まず試すゾーン(RTX 4060 Ti 16GB / 4070)

7-8B〜14B を Q4〜Q5 で動かす入門帯。ゲーミング用に組んだ GPU でそのまま始められます。「ローカル LLM がどんなものか試したい」なら、ここからで十分です。

24〜32GB:実用ゾーン(RTX 4090 / 5090)

32B クラスがコンテキスト込みで快適に回る、実用の中心。コーディング補助や日常的なアシスタント用途なら、このゾーンの単一 GPU が費用対効果のピークです。

48〜128GB:70B 以上/大容量ゾーン(Mac / Strix Halo / 複数 GPU)

70B Q4 以上を 1 台で動かすには、ここから 3 つの道に分かれます。

アプローチ代表機強み弱み
Apple SiliconMac Studio M4 Max / M3 Ultra帯域が高く 70B が速いmacOS 専用・高価
AMD Strix HaloRyzen AI MAX+ 395 機x86 で 96GB VRAM 化・安価帯域は Mac に劣る
NVIDIA 複数 GPURTX 5090 ×2 等演算最速・学習も可消費電力・設置・コスト

それぞれの実測値は「Strix Halo ローカルLLM 実機ベンチマーク」「Mac Studio M4 Max vs M3 Ultra LLMベンチマーク」「デュアル RTX 5090 マルチGPU LLMベンチマーク」で詳しく扱っています。

まとめ:容量から逆引きすれば迷わない

  • ローカル LLM の可否は、ほぼ 搭載メモリ容量 で決まる
  • Q4_K_M 基準なら 「B 数の約 6 割が GB」 が暗算の出発点
  • 壁は 24GB(32B)/ 48GB(70B)/ 128GB(巨大 MoE) の 3 つ
  • KV キャッシュ(コンテキスト長)で必要量は上振れする。ぎりぎりの構成は短文脈から
  • MoE は active が小さくても 総パラメータ分のメモリが要る(速いが軽くない)

まず手元の PC のメモリ容量を早見表に当てて、動くモデルの当たりを付ける。そこから「もっと大きいモデルを動かしたい」なら容量を増やす、という順で考えれば、ハード選びで迷うことはなくなります。

入手先・関連商品

当サイトは Amazon.co.jp アソシエイト・プログラムに参加予定です。下記リンク経由で購入された場合、紹介料を受け取ることがあります。読者の負担は増えません。リンクは記事評価とは独立しており、編集判断には影響しません。


あなたに合うPCを診断する

用途や予算をもう少し細かく入力すると、3つの候補構成を提案します。

診断スタート

関連記事