パーツ 比較

RTX 5090 vs 4090 vs PRO 6000 — AI用途で選ぶGPU 2026

ローカルLLM・画像生成・LoRAファインチューニングなどAI用途でGPUを選ぶなら2026年5月時点で何を買うべきか。RTX 4090 / 5090 / PRO 6000 Blackwell の VRAM・価格・トークン/秒・電力を横並び比較し、用途別の最適解を判断軸付きで提示します。

  • #RTX 5090
  • #RTX 4090
  • #RTX PRO 6000
  • #Blackwell
  • #AI GPU
  • #ローカルLLM
  • #GPU比較
  • #VRAM

本記事は Amazon.co.jp および各販売店のアフィリエイトリンクを含む場合があります。推奨は性能・コスパ・実機ベンチマーク基準で編集判断しており、提供記事は受け付けていません。詳細は プライバシーポリシー をご覧ください。

AIで選ぶGPU 2026:RTX 4090 24GB / RTX 5090 32GB / RTX PRO 6000 96GB の3枚比較

結論:70B クラスを 1 枚で快適に動かしたいなら RTX 5090(32GB)。8B〜14B 中心でコスパを取るなら中古 RTX 4090(24GB)。仕事として 70B FP16 や 7B フルファインチューニングまで踏み込むなら RTX PRO 6000 Blackwell(96GB)が単体で完結する唯一の解です。

RTX 5090 の発売から 3 ヶ月、RTX PRO 6000 Blackwell の登場から約 1 年。各社のベンチが出揃い、Blackwell 世代を AI 用途で買う判断軸が見えてきました。この記事では、AI で使うことだけを前提に、3 枚の GPU を VRAM・帯域・価格・実勢入手性まで横並びで比較し、用途別の最適解を整理します。

比較表(2026年5月時点)

項目RTX 4090RTX 5090RTX PRO 6000 Blackwell
VRAM24GB GDDR6X32GB GDDR796GB GDDR7 ECC
メモリ帯域1,008 GB/s1,792 GB/s1,800 GB/s
CUDAコア16,38421,76024,064
TGP450W575W600W
FP4対応
第5世代Tensor Core
70B FP16(単体)
70B Q4(単体)△(KV狭)✓余裕
8B推論(tok/s 目安)約128約213約250+
実勢価格(日本)中古25〜35万円55〜62万円130〜160万円
主な入手経路中古市場AIB抽選販売法人/ワークステーション販売

価格は 2026 年 5 月の実勢です。RTX 5090 は ASUS TUF Gaming が ¥553,800、ASUS ROG Astral が ¥620,800、MSI SUPRIM SOC が ¥559,799 という価格帯で推移しています。RTX PRO 6000 Blackwell は B2B チャネルが主流で、ワークステーションメーカー経由の購入になります。

それぞれのスペックは何を意味するか

VRAM:重みが乗るかどうかを決める唯一の数字

ローカル LLM では、モデルの重みと KV キャッシュが VRAM に収まるかどうかが推論速度をほぼ決めます。VRAM の意味と必要量の計算方法は別記事「VRAMとは何か。ローカルLLM推論で必要な量の決まり方 2026年版」で解説しています。

3 枚を VRAM 量で並べると、扱える上限モデルが階段状に変わります。

  • 24GB(4090):8B FP16 / 14B Q8 / 70B Q3〜Q4 が境界線。70B Q4_K_M は約 39GB なので、KV キャッシュを削るかオフロードが必要。
  • 32GB(5090):70B Q4 が KV キャッシュごと収まる最初のラインです。8GB 増えただけに見えて、70B 級を「1 枚で素直に動かす」という観点では大きな差になります。
  • 96GB(PRO 6000):70B FP16 が単体で動作。FP8 なら KV キャッシュにも余裕があり、本番推論サーバとして単体で完結。7B クラスのフルパラメータ FP16 ファインチューニングも 1 枚で回せます。

メモリ帯域:トークン生成速度の上限を決める

LLM 推論はメモリ帯域律速になりやすく、1 トークン生成するたびに重みを VRAM から読み出します。GDDR7 の 1.8 TB/s 級と GDDR6X の 1 TB/s 級では、実測で 1.5〜1.7 倍ほどの差がトークン/秒に出ます。

5090 と PRO 6000 はどちらも 1.8 TB/s 帯ですが、CUDA コア数と Tensor Core 性能で PRO 6000 が一段上です。RTX 4090 比でメモリ帯域は約 1.78 倍。LLaMA 3 8B FP16 推論で 4090 が 128 tok/s に対して 5090 は 213 tok/s と、6 割増しです。

Tensor Core 世代と FP4 対応

Blackwell 世代(5090 / PRO 6000)は第 5 世代 Tensor Core を搭載し、FP4 形式のネイティブ演算をサポートします。2026 年初頭から llama.cpp と vLLM が NVFP4 量子化に対応し、FP8 比で 1.32〜2.3 倍のスループット改善が報告されています。

NVIDIA の公式 NVFP4 版 Llama 3.3 70B は GSM8K で 0.9272 のスコアを記録しており、品質低下を最小に抑えながらメモリと速度を稼げます。Ada 世代(4090)は FP4 ネイティブ演算をサポートしないため、Blackwell が出た以降の量子化最前線では一段見劣りします。

TGP と電源・冷却の現実

ここが意外と効きます。

  • 4090(450W):850W 電源で動作可。ATX 3.0 で 12VHPWR を備えていれば既存ケースで収まる。
  • 5090(575W):1000W ATX 3.1 電源を強く推奨。ピーク電流に対応した 12V-2x6 コネクタが必要。フルロード時は ATX ケース内が 50℃ を超えるため、エアフロー設計の見直しが必要になることも。
  • PRO 6000(600W):同じく 1000W 級電源が要求されます。ワークステーションケース前提の冷却設計で、一般的な ATX ミドルタワーには物理的にも熱的にも収まりにくい構成です。

「ケース・電源・冷却ごと買い直し」になる可能性は、5090 以上では織り込んでおいた方が安全です。

用途別判断軸:あなたが買うべき 1 枚

ここからが本題です。AI で何をするかによって最適解が変わります。

1. 8B〜14B モデル中心 / 予算優先 → 中古 RTX 4090

予算 25〜35 万円帯で AI を始めるなら、流通量と動作実績のある 4090 中古が最も合理的です。Llama 3.1 8B、Qwen 2.5 14B、Phi-3、Gemma 2 27B あたりはすべて快適に動きます。70B は Q3〜Q4 でぎりぎりで、長いコンテキストを与えると KV キャッシュであふれます。

新品の生産は終了しており、中古相場は楽天・メルカリ・ハードオフ系列で 25〜35 万円帯で安定。動作実績の確認できる出品(写真にベンチスコア記載など)を選ぶのが安全です。

2. 70B Q4 を 1 枚で動かしたい / 今後 5 年戦いたい → RTX 5090

VRAM が 24GB から 32GB へ +8GB 増えた、これだけが 5090 の最大価値です。70B Q4_K_M(約 39GB は工夫で 32GB に押し込めます)、Q3 なら余裕、画像生成や動画生成系も VRAM 制約から大きく解放されます。

実勢価格は 55〜62 万円帯。AIB ベンダーは ASUS / MSI / GIGABYTE が主要で、ASUS TUF Gaming(¥553,800)が比較的入手しやすいラインです。ROG Astral や SUPRIM 系は¥58〜62 万円帯で、ハイエンド指向の流通が中心です。在庫は依然として抽選販売主体で、ツクモ・ソフマップ・PC工房などで定期的にエントリー受付があります。

電源は 1000W ATX 3.1 がほぼ必須で、12V-2x6 コネクタ搭載モデルを選んでください。850W で動かすという報告もありますが、転送ピーク時のトリップを考えると保証されません。

3. 70B FP16 / 7B フルチューニング / 商用推論 → RTX PRO 6000 Blackwell

「1 枚で家賃」と言われる価格帯ですが、AI を仕事として運用するなら投資対効果が成立する数少ないカードです。

  • 70B FP16 が単体で動作:量子化なしで 70B モデルをデプロイできる、消費者帯域 GPU 唯一の選択肢。
  • 7B フルパラメータ FP16 ファインチューニング:1 枚で完結。マルチ GPU の通信オーバーヘッドゼロ。
  • 96GB の余裕:14B モデルを 16k コンテキストで動かして 96.9 tok/s、70B 級でも 34 tok/s で対話できます。
  • FP4 では H100 SXM 超え:単体スループットで H100 SXM HBM3e の 2,987 tok/s に対して PRO 6000 が 3,140 tok/s を記録。コスト/トークンでは 28% 安。

価格は 130〜160 万円帯。法人向けワークステーション(Dell Precision、HP Z シリーズ、Lenovo ThinkStation 等)に組み込まれた状態で購入するのが基本です。NVLink は搭載されないため、複数枚運用は PCIe Gen5 x16(128 GB/s)経由の通信になりますが、シングル GPU で完結する規模感が PRO 6000 の本来の使い方です。

4. マルチ GPU 志向 → 5090×4 か PRO 6000×1 か

予算 250 万円前後で複数 GPU を考えるとき、選択肢は分岐します。

  • RTX 5090 × 4 枚構成:理論上は推論で 12,000 tok/s 級が出せ、複数モデル並列実行に強い。一方で電力 2.3kW、ケース・冷却・電源 2 系統が必要、AIB の在庫確保が事実上困難です。
  • RTX PRO 6000 × 1 枚構成:8,000〜9,000 tok/s 帯の単体スループットを 600W で実現、設置・冷却・運用が現実的。70B FP16 や 100B+ クラスのモデルを 1 ノードで扱える。

「並列度が要る」(複数の小さいモデルを同時に走らせる、バッチ推論をスケールさせる)なら 5090×4。「1 つの大きなモデルを丁寧に運用する」なら PRO 6000。後者が運用コストでも勝つ、というのが 2026 年現在の評価です。

ソフトウェア対応の現状(2026 年 5 月)

GPU を買っても、フレームワークが対応していなければ性能は出ません。

  • vLLM v0.11 以降:Blackwell(SM_100 / SM_120)を正式サポート、NVFP4 / CUTLASS ネイティブで動作。RTX 5090 上で torch 2.9.0 + CUDA 12.8 の組み合わせが安定構成として共有されています。
  • llama.cpp:NVFP4 量子化が 2026 年 Q1 にマージ済み。CUDA 12.8 ビルドで Blackwell カーネルが有効化されます。
  • FlashAttention 4:B200 / B300 のデータセンタ Blackwell が一級サポート。RTX 5090(SM_120)はサポート進行中で、一部のカーネル(FlashMLA、FA3 sinks)で互換性課題が継続。
  • PyTorch:2.9.0+ で CUDA 12.8 経由の Blackwell ネイティブパスが利用可能。

つまり、5090 を買うなら 2026 年 5 月時点では「動く構成と動かない構成」を選別する必要がある ということです。GLM 系の一部モデルや特定の量子化フォーマットでまだ未対応のケースがあり、人柱期間を踏むことになります。PRO 6000 はサーバ用途で先行対応しているため、ソフトウェア面はより安定しています。

価格対性能のざっくり評価

「8B 推論 tok/s ÷ 万円」で見ると以下のようになります。

  • RTX 4090 中古 30 万円:128 tok/s ÷ 30 = 4.27 tok/s/万円
  • RTX 5090 56 万円:213 tok/s ÷ 56 = 3.80 tok/s/万円
  • RTX PRO 6000 145 万円:約 250 tok/s ÷ 145 = 1.72 tok/s/万円

数字だけ見れば 4090 中古がコスパ最強です。ただしこの計算は「同じ 8B モデルを動かしたとき」の話で、PRO 6000 は「他カードでは動かないモデルを動かせる」ことに価値の主軸があります。タスクに対する VRAM 充足度が前提条件として効いてきます。

ローカル LLM をこれから始める人へ

「最低スペックは何か」「VRAM はいくつ必要か」は、別記事で詳しく扱っています。GPU 単体のスペックだけでなく、CPU・メモリ・電源・ケースまで含めた構成の最低ラインから、推奨構成 3 パターンまでを整理した記事です。

ローカルLLMを動かすPCの最低スペック 2026年版:Llama 3.3 70B が動くまで

VRAM がなぜそこまで重要なのか、KV キャッシュの実測値、量子化方式ごとの品質差については以下を参照してください。

VRAMとは何か。ローカルLLM推論で必要な量の決まり方 2026年版


あなたに合うPCを診断する

用途や予算をもう少し細かく入力すると、3つの候補構成を提案します。

診断スタート

関連記事