ローカルLLMを動かすPCの最低スペック 2026年版：Llama 3.3 70B が動くまで

本記事は Amazon.co.jp および各販売店のアフィリエイトリンクを含む場合があります。推奨は性能・コスパ・実機ベンチマーク基準で編集判断しており、提供記事は受け付けていません。詳細はプライバシーポリシーをご覧ください。

ローカルLLM PC 最低スペック 2026：VRAM階層（8GB→16GB→24GB→48GB→80GB+）

結論：ローカルLLMを実用的に動かすには最低 VRAM 16GB、本気でやるなら 24GB（RTX 4090 / 5090 級）が必要です。 70B クラスを高品質で運用したいなら 48GB か、Mac Studio M3 Ultra のようなユニファイドメモリ機を選ぶことになります。

この記事では、2026年5月時点で主要モデル（Llama 3.3 70B / Qwen 2.5 / Gemma 2 / DeepSeek-V3）を動かすために本当に要るPCスペックを、量子化方式と実勢価格を踏まえて整理します。

VRAMが「足りる／足りない」を決める計算式

ローカルLLMで一番のボトルネックはVRAMです。だいたいの目安はこうです。

必要VRAM ≒ パラメータ数 × bit数 ÷ 8 + KVキャッシュ

たとえば 70B モデルを Q4（4bit量子化）で動かすなら、70 × 4 ÷ 8 = 35GB が重みだけで必要、これに会話履歴を保持する KVキャッシュが数GB乗ります。Llama 3.3 70B Q4_K_M は実測 39GB 前後を消費するため、24GB 1枚では微妙にあふれます。

量子化	bit	70B モデルの VRAM 目安	品質感
Q3_K_M	3	約 32GB	やや粗い
Q4_K_M	4	約 39GB	実用ライン
Q5_K_M	5	約 49GB	高品質
Q8	8	約 74GB	ほぼ非量子化
FP16	16	約 140GB	フル品質

「Q4_K_M」が消費者向けハードでの定番です。Q3 まで落とすと回答の論理が時々崩れる印象、Q5 まで上げるとほぼ FP16 と区別がつかなくなります。VRAM の中身（重み・KVキャッシュ・アクティベーション）と量子化の仕組みについては「VRAMとは何か。ローカルLLM推論で必要な量の決まり方 2026年版」で詳しく扱っています。

VRAM 別：実際に動くモデル一覧（2026年5月時点）

VRAM	動かせるモデル	代表的なGPU
8GB	Llama 3.2 3B / Phi-3.5 mini（Q4）	RTX 4060 / 5060
12-16GB	Llama 3.1 8B / Qwen 2.5 14B（Q4-Q5）	RTX 4060 Ti 16GB / 5060 Ti 16GB
24GB	Llama 3.3 70B Q3 / Qwen 2.5 32B Q5	RTX 3090 / 4090 / 5080 24GB
32GB	Llama 3.3 70B Q3 + 長コンテキスト	RTX 5090
48GB	Llama 3.3 70B Q5 安定運用	RTX A6000 / A6000 Ada
80GB+	Llama 3.3 70B FP16 / DeepSeek-V3 Q4	H100 / Mac Studio M3 Ultra 192GB

8GB は「動くけど 7B 以下に限られる」帯。16GB が「ローカルLLMで普段使いできる」最低ライン、24GB が「70B クラスにギリギリ手が届く」境目、48GB 以上で「品質を犠牲にしなくていい」世界に入ります。

なお VRAM の中身については、別記事「VRAMとは何か。ローカルLLM推論で必要な量の決まり方 2026年版」で詳しく扱っています。本記事ではざっくり「重み + KVキャッシュ」で覚えておけば十分です。

推奨構成 3パターン

入門：15〜20万円（RTX 4060 Ti 16GB or RTX 5060 Ti 16GB ベース）

パーツ	構成例
GPU	RTX 4060 Ti 16GB（約 7万円）または RTX 5060 Ti 16GB（約 9万円）
CPU	Ryzen 7 7700 / Core i5-14500
メモリ	DDR5 32GB（16GB×2）
電源	750W

8B〜14B モデルが現実的に動きます。Llama 3.1 8B Q5_K_M なら 1秒あたり 30トークン以上、Qwen 2.5 14B Q4_K_M でも 15トークン前後出ます。コーディング補助や日常的な質問応答用途なら、これで十分実用になります。

70B クラスは諦める前提です。「ローカルLLM入門 → 自分の用途に合うか試したい」という人向けの帯です。

標準：40〜60万円（RTX 4090 24GB or RTX 5090 32GB ベース）

パーツ	構成例
GPU	RTX 4090 24GB（中古 30万円〜）または RTX 5090 32GB（新品 54.5万円〜）
CPU	Ryzen 9 7950X / Core i7-14700K
メモリ	DDR5 64GB（32GB×2、VRAM の2倍以上が経験則）
電源	1000W〜1200W（5090 なら 1200W 推奨）

ここからが「本気でローカルLLMをやる」帯です。Llama 3.3 70B Q3_K_M が動き、Qwen 2.5 32B が Q5 で快適に走ります。RTX 5090 32GB なら 70B Q4 もコンテキストを切り詰めれば乗ります。

価格動向は 2026年5月現在こんな具合です：

RTX 5090 32GB：新品 54.5万円〜、ハイエンドモデルは 95万円超（MSI LIGHTNING Z など）
RTX 4090 24GB：新品の流通はほぼ終了、中古で 30〜40万円が相場

新品の入手性と将来の Blackwell 世代のサポートを考えると 5090 が筋ですが、コスパだけで言えば中古 4090 もまだ十分戦えます。電源は 5090 の TDP 575W に対応するため 1200W 級を推奨します。電源容量を削るとピーク時に落ちるので、ここはケチらないほうがよい場所です。

5090 / 4090 / RTX PRO 6000 の AI 用途比較は「RTX 5090 vs 4090 vs PRO 6000 — AI用途で選ぶGPU 2026」で詳しく整理しています。Llama 3.3 70B の GPU 別実測トークン/秒は「Llama 3.3 70B GPU別トークン/秒 2026年版」を参照してください。

RTX 5090 を Amazon で見る DDR5 64GB キットを Amazon で見る

本格：100万円〜（Mac Studio M3 Ultra or RTX A6000）

構成	特徴
Mac Studio M3 Ultra 192GB ユニファイドメモリ	70B Q4 で約15 tok/s、消費電力 200W 程度、静音
RTX A6000 48GB ×1 〜 ×2	70B Q5 が余裕、商用GPU 級の信頼性
RTX 5090 32GB ×2（NVLink 不可、テンソル並列）	64GB 相当、ただし設定難度は高い

Mac Studio M3 Ultra 192GB は「メモリ帯域 800GB/s」「ユニファイドメモリ 192GB」という構成で、70B クラスはもちろん DeepSeek-V3 のような巨大モデルも乗ります。トークン速度では NVIDIA の最上位機に及びませんが、消費電力・静音性・セットアップの簡単さで頭ひとつ抜けます。

「速度より、巨大モデルがとにかく動くこと」を優先するならこの選択肢です。逆に「速度こそ正義、Llama 70B FP16 を 30 tok/s で回したい」なら、H100 80GB の中古かクラウド GPU のほうが現実的になります。Apple Silicon の Unified Memory と NVIDIA VRAM の構造比較は「Apple Silicon の Unified Memory vs NVIDIA VRAM 2026年版」で詳しく扱っています。

CPU・メモリ・電源の補足

GPU だけ良くても周辺がボトルネックになると意味がありません。最低ラインの目安です。

CPU：8コア16スレッド以上（Ryzen 7 7700 / Core i5-14500 級）。LLM 推論はGPUで完結するのでCPUの影響は小さいですが、量子化処理やプロンプト前処理で多少効きます。
システムRAM：VRAM の 2倍以上 が経験則。70B を動かすなら 64GB 以上、本格用途なら 128GB 推奨。mmap でモデルを RAM にも保持するため、ここをケチると初回ロードと切り替えで詰まります。
電源：RTX 5090 の TDP は 575W、システム全体で 800W 級になります。電源は 1200W、80 PLUS Gold 以上を推奨。
ストレージ：NVMe SSD 2TB 以上。70B Q4 のモデルファイルだけで 40GB、量子化違いを複数持つとあっという間に 1TB 使います。

Apple Silicon という選択肢

Apple Silicon（M3 Ultra / M4 Max）は CPU と GPU が同じメモリ空間（ユニファイドメモリ）を使うため、本来 GPU メモリに乗らないサイズのモデルでも動きます。M3 Ultra 192GB なら 70B FP16 が乗り、M4 Max 64GB でも 70B Q4_K_M が現実的に走ります。

NVIDIA 系との違いはこんな感じです：

メモリ帯域は M3 Ultra で 800GB/s、RTX 5090 は 1.79TB/s。生のスループットは 5090 が倍以上速い
消費電力は M3 Ultra が 200W 前後、5090 単体で 575W。ワットあたり性能は M 系が圧倒的
セットアップは LM Studio / Ollama が Mac だと一発、Linux + CUDA は環境構築で 1日潰れることがある

「電気代と騒音を気にしないハイスループット」は NVIDIA、「省電力で巨大モデルを安定運用」は Apple、と分けて考えるのが筋です。

どれを選ぶか：用途から逆算する

用途	推奨
コード補完を Llama / Qwen で回したい	入門（16GB）で十分
70B を業務エージェントとして使いたい	標準（24-32GB）以上
自前データで継続学習・ファインチューン	標準以上 + システムRAM 128GB
巨大モデル（70B以上）を品質落とさず	本格（48GB+ or Mac Studio）
API コストを下げたい個人開発	標準で 70B Q4 を回す

「とりあえず一番安く始めて、必要になったら買い替える」という戦略は、ローカルLLM では微妙に成立しません。RTX 4060 Ti を買って後から 5090 に乗り換えると、電源とケースまで巻き込んだ買い直しになります。最初から想定する最大モデルサイズで電源と筐体を選んでおくほうが安く済みます。

あなたに合うPCを診断する

用途や予算をもう少し細かく入力すると、3つの候補構成を提案します。

→ 診断スタート

VRAMとは何か。ローカルLLM推論で必要な量の決まり方 2026年版 — VRAM 容量論の基礎、計算式と早見表
Llama 3.3 70B GPU別トークン/秒 2026年版 — GPU別の実測速度比較
RTX 5090 vs 4090 vs PRO 6000 — AI用途で選ぶGPU 2026 — Blackwell 世代の選定実例
Apple Silicon の Unified Memory vs NVIDIA VRAM 2026年版 — Mac/NVIDIA の構造的違い
Tensor Core / CUDA Core / RT Core の違い 2026年版 — GPU コア種別の役割
Claude Code を快適に動かすPC構成 2026年版（必要スペック） — クラウドAIだけ使う場合の構成
AI開発向けPC 記事一覧