ローカルLLMを動かすPCの最低スペック 2026年版:Llama 3.3 70B が動くまで
Llama 3.3 70B / Qwen 2.5 / Gemma 2 を手元で動かすために必要なPCスペックを2026年5月時点の実勢価格・量子化前提で整理。VRAM・メモリ・電源の最低ラインから、推奨構成3パターンまで。
- #ローカルLLM
- #Llama 3.3
- #GPU選び
- #VRAM
- #RTX 5090
- #Mac Studio
- #AI開発PC
本記事は Amazon.co.jp および各販売店のアフィリエイトリンクを含む場合があります。推奨は性能・コスパ・実機ベンチマーク基準で編集判断しており、提供記事は受け付けていません。詳細は プライバシーポリシー をご覧ください。

結論:ローカルLLMを実用的に動かすには最低 VRAM 16GB、本気でやるなら 24GB(RTX 4090 / 5090 級)が必要です。 70B クラスを高品質で運用したいなら 48GB か、Mac Studio M3 Ultra のようなユニファイドメモリ機を選ぶことになります。
この記事では、2026年5月時点で主要モデル(Llama 3.3 70B / Qwen 2.5 / Gemma 2 / DeepSeek-V3)を動かすために本当に要るPCスペックを、量子化方式と実勢価格を踏まえて整理します。
VRAMが「足りる/足りない」を決める計算式
ローカルLLMで一番のボトルネックはVRAMです。だいたいの目安はこうです。
必要VRAM ≒ パラメータ数 × bit数 ÷ 8 + KVキャッシュ
たとえば 70B モデルを Q4(4bit量子化)で動かすなら、70 × 4 ÷ 8 = 35GB が重みだけで必要、これに会話履歴を保持する KVキャッシュが数GB乗ります。Llama 3.3 70B Q4_K_M は実測 39GB 前後を消費するため、24GB 1枚では微妙にあふれます。
| 量子化 | bit | 70B モデルの VRAM 目安 | 品質感 |
|---|---|---|---|
| Q3_K_M | 3 | 約 32GB | やや粗い |
| Q4_K_M | 4 | 約 39GB | 実用ライン |
| Q5_K_M | 5 | 約 49GB | 高品質 |
| Q8 | 8 | 約 74GB | ほぼ非量子化 |
| FP16 | 16 | 約 140GB | フル品質 |
「Q4_K_M」が消費者向けハードでの定番です。Q3 まで落とすと回答の論理が時々崩れる印象、Q5 まで上げるとほぼ FP16 と区別がつかなくなります。VRAM の中身(重み・KVキャッシュ・アクティベーション)と量子化の仕組みについては「VRAMとは何か。ローカルLLM推論で必要な量の決まり方 2026年版」で詳しく扱っています。
VRAM 別:実際に動くモデル一覧(2026年5月時点)
| VRAM | 動かせるモデル | 代表的なGPU |
|---|---|---|
| 8GB | Llama 3.2 3B / Phi-3.5 mini(Q4) | RTX 4060 / 5060 |
| 12-16GB | Llama 3.1 8B / Qwen 2.5 14B(Q4-Q5) | RTX 4060 Ti 16GB / 5060 Ti 16GB |
| 24GB | Llama 3.3 70B Q3 / Qwen 2.5 32B Q5 | RTX 3090 / 4090 / 5080 24GB |
| 32GB | Llama 3.3 70B Q3 + 長コンテキスト | RTX 5090 |
| 48GB | Llama 3.3 70B Q5 安定運用 | RTX A6000 / A6000 Ada |
| 80GB+ | Llama 3.3 70B FP16 / DeepSeek-V3 Q4 | H100 / Mac Studio M3 Ultra 192GB |
8GB は「動くけど 7B 以下に限られる」帯。16GB が「ローカルLLMで普段使いできる」最低ライン、24GB が「70B クラスにギリギリ手が届く」境目、48GB 以上で「品質を犠牲にしなくていい」世界に入ります。
なお VRAM の中身については、別記事「VRAMとは何か。ローカルLLM推論で必要な量の決まり方 2026年版」で詳しく扱っています。本記事ではざっくり「重み + KVキャッシュ」で覚えておけば十分です。
推奨構成 3パターン
入門:15〜20万円(RTX 4060 Ti 16GB or RTX 5060 Ti 16GB ベース)
| パーツ | 構成例 |
|---|---|
| GPU | RTX 4060 Ti 16GB(約 7万円)または RTX 5060 Ti 16GB(約 9万円) |
| CPU | Ryzen 7 7700 / Core i5-14500 |
| メモリ | DDR5 32GB(16GB×2) |
| 電源 | 750W |
8B〜14B モデルが現実的に動きます。Llama 3.1 8B Q5_K_M なら 1秒あたり 30トークン以上、Qwen 2.5 14B Q4_K_M でも 15トークン前後出ます。コーディング補助や日常的な質問応答用途なら、これで十分実用になります。
70B クラスは諦める前提です。「ローカルLLM入門 → 自分の用途に合うか試したい」という人向けの帯です。
標準:40〜60万円(RTX 4090 24GB or RTX 5090 32GB ベース)
| パーツ | 構成例 |
|---|---|
| GPU | RTX 4090 24GB(中古 30万円〜)または RTX 5090 32GB(新品 54.5万円〜) |
| CPU | Ryzen 9 7950X / Core i7-14700K |
| メモリ | DDR5 64GB(32GB×2、VRAM の2倍以上が経験則) |
| 電源 | 1000W〜1200W(5090 なら 1200W 推奨) |
ここからが「本気でローカルLLMをやる」帯です。Llama 3.3 70B Q3_K_M が動き、Qwen 2.5 32B が Q5 で快適に走ります。RTX 5090 32GB なら 70B Q4 もコンテキストを切り詰めれば乗ります。
価格動向は 2026年5月現在こんな具合です:
- RTX 5090 32GB:新品 54.5万円〜、ハイエンドモデルは 95万円超(MSI LIGHTNING Z など)
- RTX 4090 24GB:新品の流通はほぼ終了、中古で 30〜40万円が相場
新品の入手性と将来の Blackwell 世代のサポートを考えると 5090 が筋ですが、コスパだけで言えば中古 4090 もまだ十分戦えます。電源は 5090 の TDP 575W に対応するため 1200W 級を推奨します。電源容量を削るとピーク時に落ちるので、ここはケチらないほうがよい場所です。
5090 / 4090 / RTX PRO 6000 の AI 用途比較は「RTX 5090 vs 4090 vs PRO 6000 — AI用途で選ぶGPU 2026」で詳しく整理しています。Llama 3.3 70B の GPU 別実測トークン/秒は「Llama 3.3 70B GPU別トークン/秒 2026年版」を参照してください。
RTX 5090 を Amazon で見る DDR5 64GB キット を Amazon で見る
本格:100万円〜(Mac Studio M3 Ultra or RTX A6000)
| 構成 | 特徴 |
|---|---|
| Mac Studio M3 Ultra 192GB ユニファイドメモリ | 70B Q4 で 約15 tok/s、消費電力 200W 程度、静音 |
| RTX A6000 48GB ×1 〜 ×2 | 70B Q5 が余裕、商用GPU 級の信頼性 |
| RTX 5090 32GB ×2(NVLink 不可、テンソル並列) | 64GB 相当、ただし設定難度は高い |
Mac Studio M3 Ultra 192GB は「メモリ帯域 800GB/s」「ユニファイドメモリ 192GB」という構成で、70B クラスはもちろん DeepSeek-V3 のような巨大モデルも乗ります。トークン速度では NVIDIA の最上位機に及びませんが、消費電力・静音性・セットアップの簡単さで頭ひとつ抜けます。
「速度より、巨大モデルがとにかく動くこと」を優先するならこの選択肢です。逆に「速度こそ正義、Llama 70B FP16 を 30 tok/s で回したい」なら、H100 80GB の中古かクラウド GPU のほうが現実的になります。Apple Silicon の Unified Memory と NVIDIA VRAM の構造比較は「Apple Silicon の Unified Memory vs NVIDIA VRAM 2026年版」で詳しく扱っています。
CPU・メモリ・電源の補足
GPU だけ良くても周辺がボトルネックになると意味がありません。最低ラインの目安です。
- CPU:8コア16スレッド以上(Ryzen 7 7700 / Core i5-14500 級)。LLM 推論はGPUで完結するのでCPUの影響は小さいですが、量子化処理やプロンプト前処理で多少効きます。
- システムRAM:VRAM の 2倍以上 が経験則。70B を動かすなら 64GB 以上、本格用途なら 128GB 推奨。
mmapでモデルを RAM にも保持するため、ここをケチると初回ロードと切り替えで詰まります。 - 電源:RTX 5090 の TDP は 575W、システム全体で 800W 級になります。電源は 1200W、80 PLUS Gold 以上を推奨。
- ストレージ:NVMe SSD 2TB 以上。70B Q4 のモデルファイルだけで 40GB、量子化違いを複数持つとあっという間に 1TB 使います。
Apple Silicon という選択肢
Apple Silicon(M3 Ultra / M4 Max)は CPU と GPU が同じメモリ空間(ユニファイドメモリ)を使うため、本来 GPU メモリに乗らないサイズのモデルでも動きます。M3 Ultra 192GB なら 70B FP16 が乗り、M4 Max 64GB でも 70B Q4_K_M が現実的に走ります。
NVIDIA 系との違いはこんな感じです:
- メモリ帯域は M3 Ultra で 800GB/s、RTX 5090 は 1.79TB/s。生のスループットは 5090 が倍以上速い
- 消費電力は M3 Ultra が 200W 前後、5090 単体で 575W。ワットあたり性能は M 系が圧倒的
- セットアップは LM Studio / Ollama が Mac だと一発、Linux + CUDA は環境構築で 1日潰れることがある
「電気代と騒音を気にしないハイスループット」は NVIDIA、「省電力で巨大モデルを安定運用」は Apple、と分けて考えるのが筋です。
どれを選ぶか:用途から逆算する
| 用途 | 推奨 |
|---|---|
| コード補完を Llama / Qwen で回したい | 入門(16GB)で十分 |
| 70B を業務エージェントとして使いたい | 標準(24-32GB)以上 |
| 自前データで継続学習・ファインチューン | 標準以上 + システムRAM 128GB |
| 巨大モデル(70B以上)を品質落とさず | 本格(48GB+ or Mac Studio) |
| API コストを下げたい個人開発 | 標準で 70B Q4 を回す |
「とりあえず一番安く始めて、必要になったら買い替える」という戦略は、ローカルLLM では微妙に成立しません。RTX 4060 Ti を買って後から 5090 に乗り換えると、電源とケースまで巻き込んだ買い直しになります。最初から想定する最大モデルサイズで電源と筐体を選んでおくほうが安く済みます。
あなたに合うPCを診断する
用途や予算をもう少し細かく入力すると、3つの候補構成を提案します。
→ 診断スタート
関連記事
- VRAMとは何か。ローカルLLM推論で必要な量の決まり方 2026年版 — VRAM 容量論の基礎、計算式と早見表
- Llama 3.3 70B GPU別トークン/秒 2026年版 — GPU別の実測速度比較
- RTX 5090 vs 4090 vs PRO 6000 — AI用途で選ぶGPU 2026 — Blackwell 世代の選定実例
- Apple Silicon の Unified Memory vs NVIDIA VRAM 2026年版 — Mac/NVIDIA の構造的違い
- Tensor Core / CUDA Core / RT Core の違い 2026年版 — GPU コア種別の役割
- Claude Code を快適に動かすPC構成 2026年版(必要スペック) — クラウドAIだけ使う場合の構成
- AI開発向けPC 記事一覧