AI開発 ガイド

ローカルLLMを動かすPCの最低スペック 2026年版:Llama 3.3 70B が動くまで

Llama 3.3 70B / Qwen 2.5 / Gemma 2 を手元で動かすために必要なPCスペックを2026年5月時点の実勢価格・量子化前提で整理。VRAM・メモリ・電源の最低ラインから、推奨構成3パターンまで。

  • #ローカルLLM
  • #Llama 3.3
  • #GPU選び
  • #VRAM
  • #RTX 5090
  • #Mac Studio
  • #AI開発PC

本記事は Amazon.co.jp および各販売店のアフィリエイトリンクを含む場合があります。推奨は性能・コスパ・実機ベンチマーク基準で編集判断しており、提供記事は受け付けていません。詳細は プライバシーポリシー をご覧ください。

ローカルLLM PC 最低スペック 2026:VRAM階層(8GB→16GB→24GB→48GB→80GB+)

結論:ローカルLLMを実用的に動かすには最低 VRAM 16GB、本気でやるなら 24GB(RTX 4090 / 5090 級)が必要です。 70B クラスを高品質で運用したいなら 48GB か、Mac Studio M3 Ultra のようなユニファイドメモリ機を選ぶことになります。

この記事では、2026年5月時点で主要モデル(Llama 3.3 70B / Qwen 2.5 / Gemma 2 / DeepSeek-V3)を動かすために本当に要るPCスペックを、量子化方式と実勢価格を踏まえて整理します。

VRAMが「足りる/足りない」を決める計算式

ローカルLLMで一番のボトルネックはVRAMです。だいたいの目安はこうです。

必要VRAM ≒ パラメータ数 × bit数 ÷ 8 + KVキャッシュ

たとえば 70B モデルを Q4(4bit量子化)で動かすなら、70 × 4 ÷ 8 = 35GB が重みだけで必要、これに会話履歴を保持する KVキャッシュが数GB乗ります。Llama 3.3 70B Q4_K_M は実測 39GB 前後を消費するため、24GB 1枚では微妙にあふれます。

量子化bit70B モデルの VRAM 目安品質感
Q3_K_M3約 32GBやや粗い
Q4_K_M4約 39GB実用ライン
Q5_K_M5約 49GB高品質
Q88約 74GBほぼ非量子化
FP1616約 140GBフル品質

「Q4_K_M」が消費者向けハードでの定番です。Q3 まで落とすと回答の論理が時々崩れる印象、Q5 まで上げるとほぼ FP16 と区別がつかなくなります。VRAM の中身(重み・KVキャッシュ・アクティベーション)と量子化の仕組みについては「VRAMとは何か。ローカルLLM推論で必要な量の決まり方 2026年版」で詳しく扱っています。

VRAM 別:実際に動くモデル一覧(2026年5月時点)

VRAM動かせるモデル代表的なGPU
8GBLlama 3.2 3B / Phi-3.5 mini(Q4)RTX 4060 / 5060
12-16GBLlama 3.1 8B / Qwen 2.5 14B(Q4-Q5)RTX 4060 Ti 16GB / 5060 Ti 16GB
24GBLlama 3.3 70B Q3 / Qwen 2.5 32B Q5RTX 3090 / 4090 / 5080 24GB
32GBLlama 3.3 70B Q3 + 長コンテキストRTX 5090
48GBLlama 3.3 70B Q5 安定運用RTX A6000 / A6000 Ada
80GB+Llama 3.3 70B FP16 / DeepSeek-V3 Q4H100 / Mac Studio M3 Ultra 192GB

8GB は「動くけど 7B 以下に限られる」帯。16GB が「ローカルLLMで普段使いできる」最低ライン、24GB が「70B クラスにギリギリ手が届く」境目、48GB 以上で「品質を犠牲にしなくていい」世界に入ります。

なお VRAM の中身については、別記事「VRAMとは何か。ローカルLLM推論で必要な量の決まり方 2026年版」で詳しく扱っています。本記事ではざっくり「重み + KVキャッシュ」で覚えておけば十分です。

推奨構成 3パターン

入門:15〜20万円(RTX 4060 Ti 16GB or RTX 5060 Ti 16GB ベース)

パーツ構成例
GPURTX 4060 Ti 16GB(約 7万円)または RTX 5060 Ti 16GB(約 9万円)
CPURyzen 7 7700 / Core i5-14500
メモリDDR5 32GB(16GB×2)
電源750W

8B〜14B モデルが現実的に動きます。Llama 3.1 8B Q5_K_M なら 1秒あたり 30トークン以上、Qwen 2.5 14B Q4_K_M でも 15トークン前後出ます。コーディング補助や日常的な質問応答用途なら、これで十分実用になります。

70B クラスは諦める前提です。「ローカルLLM入門 → 自分の用途に合うか試したい」という人向けの帯です。

標準:40〜60万円(RTX 4090 24GB or RTX 5090 32GB ベース)

パーツ構成例
GPURTX 4090 24GB(中古 30万円〜)または RTX 5090 32GB(新品 54.5万円〜)
CPURyzen 9 7950X / Core i7-14700K
メモリDDR5 64GB(32GB×2、VRAM の2倍以上が経験則)
電源1000W〜1200W(5090 なら 1200W 推奨)

ここからが「本気でローカルLLMをやる」帯です。Llama 3.3 70B Q3_K_M が動き、Qwen 2.5 32B が Q5 で快適に走ります。RTX 5090 32GB なら 70B Q4 もコンテキストを切り詰めれば乗ります。

価格動向は 2026年5月現在こんな具合です:

  • RTX 5090 32GB:新品 54.5万円〜、ハイエンドモデルは 95万円超(MSI LIGHTNING Z など)
  • RTX 4090 24GB:新品の流通はほぼ終了、中古で 30〜40万円が相場

新品の入手性と将来の Blackwell 世代のサポートを考えると 5090 が筋ですが、コスパだけで言えば中古 4090 もまだ十分戦えます。電源は 5090 の TDP 575W に対応するため 1200W 級を推奨します。電源容量を削るとピーク時に落ちるので、ここはケチらないほうがよい場所です。

5090 / 4090 / RTX PRO 6000 の AI 用途比較は「RTX 5090 vs 4090 vs PRO 6000 — AI用途で選ぶGPU 2026」で詳しく整理しています。Llama 3.3 70B の GPU 別実測トークン/秒は「Llama 3.3 70B GPU別トークン/秒 2026年版」を参照してください。

RTX 5090 を Amazon で見る DDR5 64GB キット を Amazon で見る

本格:100万円〜(Mac Studio M3 Ultra or RTX A6000)

構成特徴
Mac Studio M3 Ultra 192GB ユニファイドメモリ70B Q4 で 約15 tok/s、消費電力 200W 程度、静音
RTX A6000 48GB ×1 〜 ×270B Q5 が余裕、商用GPU 級の信頼性
RTX 5090 32GB ×2(NVLink 不可、テンソル並列)64GB 相当、ただし設定難度は高い

Mac Studio M3 Ultra 192GB は「メモリ帯域 800GB/s」「ユニファイドメモリ 192GB」という構成で、70B クラスはもちろん DeepSeek-V3 のような巨大モデルも乗ります。トークン速度では NVIDIA の最上位機に及びませんが、消費電力・静音性・セットアップの簡単さで頭ひとつ抜けます。

「速度より、巨大モデルがとにかく動くこと」を優先するならこの選択肢です。逆に「速度こそ正義、Llama 70B FP16 を 30 tok/s で回したい」なら、H100 80GB の中古かクラウド GPU のほうが現実的になります。Apple Silicon の Unified Memory と NVIDIA VRAM の構造比較は「Apple Silicon の Unified Memory vs NVIDIA VRAM 2026年版」で詳しく扱っています。

CPU・メモリ・電源の補足

GPU だけ良くても周辺がボトルネックになると意味がありません。最低ラインの目安です。

  • CPU:8コア16スレッド以上(Ryzen 7 7700 / Core i5-14500 級)。LLM 推論はGPUで完結するのでCPUの影響は小さいですが、量子化処理やプロンプト前処理で多少効きます。
  • システムRAM:VRAM の 2倍以上 が経験則。70B を動かすなら 64GB 以上、本格用途なら 128GB 推奨。mmap でモデルを RAM にも保持するため、ここをケチると初回ロードと切り替えで詰まります。
  • 電源:RTX 5090 の TDP は 575W、システム全体で 800W 級になります。電源は 1200W、80 PLUS Gold 以上を推奨。
  • ストレージ:NVMe SSD 2TB 以上。70B Q4 のモデルファイルだけで 40GB、量子化違いを複数持つとあっという間に 1TB 使います。

Apple Silicon という選択肢

Apple Silicon(M3 Ultra / M4 Max)は CPU と GPU が同じメモリ空間(ユニファイドメモリ)を使うため、本来 GPU メモリに乗らないサイズのモデルでも動きます。M3 Ultra 192GB なら 70B FP16 が乗り、M4 Max 64GB でも 70B Q4_K_M が現実的に走ります。

NVIDIA 系との違いはこんな感じです:

  • メモリ帯域は M3 Ultra で 800GB/s、RTX 5090 は 1.79TB/s。生のスループットは 5090 が倍以上速い
  • 消費電力は M3 Ultra が 200W 前後、5090 単体で 575W。ワットあたり性能は M 系が圧倒的
  • セットアップは LM Studio / Ollama が Mac だと一発、Linux + CUDA は環境構築で 1日潰れることがある

「電気代と騒音を気にしないハイスループット」は NVIDIA、「省電力で巨大モデルを安定運用」は Apple、と分けて考えるのが筋です。

どれを選ぶか:用途から逆算する

用途推奨
コード補完を Llama / Qwen で回したい入門(16GB)で十分
70B を業務エージェントとして使いたい標準(24-32GB)以上
自前データで継続学習・ファインチューン標準以上 + システムRAM 128GB
巨大モデル(70B以上)を品質落とさず本格(48GB+ or Mac Studio)
API コストを下げたい個人開発標準で 70B Q4 を回す

「とりあえず一番安く始めて、必要になったら買い替える」という戦略は、ローカルLLM では微妙に成立しません。RTX 4060 Ti を買って後から 5090 に乗り換えると、電源とケースまで巻き込んだ買い直しになります。最初から想定する最大モデルサイズで電源と筐体を選んでおくほうが安く済みます。


あなたに合うPCを診断する

用途や予算をもう少し細かく入力すると、3つの候補構成を提案します。

診断スタート

関連記事