AMD Radeon AI PRO R9700 32GB はローカルLLMで買いか 2026年版:RTX 5090・RTX 5080と tok/sec・VRAM・価格で比べる
AMD の新ワークステーションGPU Radeon AI PRO R9700(32GB GDDR6・約$1,244〜)はローカルLLMで RTX 5090 / 5080 の代わりになるか。Qwen3.5 35B など公開実測の tok/sec・prefill 速度・VRAM容量・価格・ROCm/Vulkan対応を突き合わせ、32GBを安く積みたい人の判断軸を整理します。
- #Radeon AI PRO R9700
- #AMD
- #ローカルLLM
- #RTX 5090
- #RTX 5080
- #VRAM
- #tok/sec
- #ROCm
- #GPU比較
本記事は Amazon.co.jp および各販売店のアフィリエイトリンクを含む場合があります。推奨は性能・コスパ・実機ベンチマーク基準で編集判断しており、提供記事は受け付けていません。詳細は プライバシーポリシー をご覧ください。

結論:AMD Radeon AI PRO R9700(32GB GDDR6・約$1,244〜)は「32GB を安く積みたいローカルLLM 派」に刺さる新カテゴリです。生成速度は RTX 5090 の約65%(公開ベンチで 127 vs 194 tok/s)ですが、価格は半額強。prefill は RTX 5090 が 2.6〜3.4倍速いので、長文RAG やエージェント主体なら 5090、対話・生成中心でコスパ最優先なら R9700、という住み分けです。VRAM 16GB の RTX 5080 とは土俵が違い、「32GB が要るか」が最初の分岐点になります。
2026 年、AMD は AI/ワークステーション向けに Radeon AI PRO R9700(32GB GDDR6) を投入しました。約 $1,244〜$1,299 という価格で 32GB を積めるのは、「24GB の壁」を NVIDIA より安く越えたい層にとって新しい選択肢です。本記事は、この R9700 がローカルLLM で RTX 5090 / RTX 5080 の代わりになるかを、公開実測の tok/sec・VRAM・価格・エコシステムで突き合わせて判断軸を渡します。
NVIDIA 内での AI 向け GPU 選びは「RTX 5090 vs 4090 vs PRO 6000 ローカルLLM・AI 用途比較」、ゲーミング軸での GeForce vs Radeon は「GeForce vs Radeon ゲーミングGPU 比較」にあります。本記事は「AMD の新 32GB AI GPU を、ローカルLLM 実測軸で NVIDIA と比べる」単独テーマです。
スペック比較:R9700 / RTX 5090 / RTX 5080
まず 3 枚の基本スペックを並べます。
| 項目 | Radeon AI PRO R9700 | RTX 5090 | RTX 5080 |
|---|---|---|---|
| VRAM | 32GB GDDR6 | 32GB GDDR7 | 16GB GDDR7 |
| メモリ帯域 | 約 512 GB/s | 約 1.8 TB/s | 約 960 GB/s |
| 価格目安(米国) | 約 $1,244〜$1,299 | $2,000+ | $1,000+ |
| 対応スタック | ROCm / Vulkan | CUDA | CUDA |
| 位置付け | AI/WS 向け 32GB を安く | 最速・最上位 | 速いが 16GB |
注目すべきは 2 点です。1 つは R9700 が 32GB を $1,244〜という低価格で積めること。もう 1 つは メモリ帯域が約 512GB/s と、RTX 5090(約1.8TB/s)の 3 分の 1 弱であること。ローカルLLM の生成速度(tok/s)はメモリ帯域でほぼ決まる(仕組みは「メモリ帯域幅(GB/s)がローカルLLMの tok/sec を決める仕組み」)ため、この帯域差がそのまま生成速度の差に現れます。
生成速度(tok/sec):公開ベンチの一例
ローカルLLM の生成速度について、公開されている実測の一例を挙げます。以下は llama.cpp コミュニティおよび hostkey のベンチで報告された Qwen3.5 35B-A3B(Q4_K_XL、MoE)の値で、モデル・量子化・ランタイムにより変動します(自前未実測の数値は載せていません)。
| GPU | ランタイム | Qwen3.5 35B-A3B Q4_K_XL 生成速度 |
|---|---|---|
| RTX 5090 | CUDA / llama.cpp | 約 194 tok/s |
| Radeon AI PRO R9700 | Vulkan / llama.cpp | 約 127 tok/s |
差は約 1.53倍(5090 が速い)。一見大きいですが、127 tok/s はリアルタイム対話で人が差を感じにくくなる 30〜40 tok/s を大きく上回っており、チャットや生成用途では「どちらも十分速い」域です。ここに価格差(5090 は R9700 の約 1.6 倍以上)を重ねると、「生成速度 65% を価格 55% で買う」という R9700 の費用対効果が見えてきます。
なお Vulkan 経路での実測である点は重要で、ROCm の最適化が進めば R9700 側の数値は今後改善余地があります。
prefill(プロンプト処理)の差:長文ほど効く
生成(decode)と対照的に、prefill(プロンプト処理)では RTX 5090 が約 2.6〜3.4倍速いと報告されています。長いコンテキストを入れるほどこの差が開きます。
prefill は入力文を一気に読み込んで内部状態を作るフェーズで、行列演算と帯域の両方が効きます。GDDR7 約1.8TB/s の RTX 5090 と、約512GB/s の R9700 では、ここで大きく差が出ます。実用への影響はこうです。
- 短い対話中心:prefill が短いので差は小さい → R9700 で十分
- 長文RAG・長いシステムプロンプト・エージェント:毎回長い prefill が走る → 5090 の優位が体感に効く
prefill の重要性は「ローカルLLM の prompt processing(prefill)ベンチマーク」で詳しく扱っています。自分の使い方が「短い対話」か「長いプロンプト」かが、R9700 で妥協できるかどうかの分かれ目です。
VRAM 32GB で何が動くか:R9700 の主戦場
R9700 の最大の武器は 32GB です。容量別に何が動くかの目安を整理します(容量は KVキャッシュ込みで「ファイルサイズ + 30〜50%」で見積もる)。
| モデル規模 | R9700 32GB での実用性 | コメント |
|---|---|---|
| 14B Q8 / 32B Q4 | ◎ | 余裕。生成も快適 |
| 30B 級 MoE(Qwen3.5 35B-A3B 等) | ◎ | アクティブ層が少なく快適圏。R9700 の主戦場 |
| 70B Q4(約42GB) | △ | 32GB に収めるには工夫が要り、帯域で生成も遅め |
| 100B+ | ✗ | 単機では非現実的 |
ここで RTX 5080(16GB)との差がはっきりします。5080 は帯域 960GB/s で速いものの、16GB では 32B Q4 すら厳しく、24〜32GB 級のモデルは載りません。「速いが容量で詰む 5080」に対し、R9700 は「速度は控えめでも 32GB で動かせる」。ローカルLLM は容量が一次・速度が二次なので、載せたいモデルが 16GB を超えるなら R9700 が勝ちます。容量別の早見は「ローカルLLM の VRAM 容量別・動くモデル早見表」を参照してください。
エコシステムと消費電力:ROCm / Vulkan の現実
性能数値の外で、AMD GPU を選ぶ際に必ず効くのがソフトウェアスタックです。
- ROCm:AMD の CUDA 相当。対応は年々広がっているが、CUDA の「とりあえず動く」安心感にはまだ差がある
- Vulkan:llama.cpp が Vulkan バックエンドを持つため、ROCm を待たずに動かせる経路。上記ベンチも Vulkan 経由
- Ollama / llama.cpp:推論の主要ツールは AMD 対応が実用域。一方、学習・一部の最新ライブラリは CUDA 前提のものがまだ多い
つまり 「推論を Ollama / llama.cpp で回す」なら R9700 は実用ですが、最新の学習フレームワークやニッチなツールを CUDA 前提で使いたいなら NVIDIA が無難、という現状です。加えて R9700 はワークステーション向けで TBP が抑えめなため、消費電力・発熱の面では扱いやすい部類に入ります。
結局どれを選ぶべきか
| 重視すること | 推奨 |
|---|---|
| 32GB を安く積みたい・推論中心 | Radeon AI PRO R9700 |
| 生成も prefill も最速・予算上限が高い | RTX 5090 |
| 長文RAG・エージェントで prefill が効く | RTX 5090 |
| 16GB で足りる用途・CUDA エコシステム重視 | RTX 5080 |
| 学習・最新ライブラリを CUDA で | NVIDIA(5090 / PRO 6000 系) |
R9700 は「NVIDIA より安く 32GB を積み、推論を回す」という明確な勝ち筋を持った新顔です。逆に prefill 速度・CUDA エコシステム・学習用途では依然 NVIDIA に分があります。**「32GB が要るか」「prefill が効く使い方か」「CUDA に縛られるか」**の 3 問に答えれば、R9700 で妥協できるかが決まります。NVIDIA 内での上位比較は「RTX 5090 vs 4090 vs PRO 6000」へ。
入手先・関連商品
当サイトは Amazon.co.jp アソシエイト・プログラムに参加予定です。下記リンク経由で購入された場合、紹介料を受け取ることがあります。読者の負担は増えません。リンクは記事評価とは独立しており、編集判断には影響しません。
価格は本文記載のとおり目安で、為替・在庫で変動します。最新の価格と在庫は検索リンクから確認してください。
比較した GPU
- Radeon AI PRO R9700 を Amazon.co.jp で見る
- GeForce RTX 5090 32GB を Amazon.co.jp で見る
- GeForce RTX 5080 16GB を Amazon.co.jp で見る
周辺(32GB GPU 運用の足回り)
- 850W 80PLUS Gold 電源 を Amazon.co.jp で見る
- NVMe SSD 2TB を Amazon.co.jp で見る
- DDR5 64GB メモリ を Amazon.co.jp で見る
あなたに合うPCを診断する
用途や予算をもう少し細かく入力すると、3つの候補構成を提案します。
→ 診断スタート
関連記事
- RTX 5090 vs 4090 vs PRO 6000 ローカルLLM・AI 用途比較 2026年版 — NVIDIA 内の AI 向け GPU 選び
- メモリ帯域幅(GB/s)がローカルLLMの tok/sec を決める仕組み 2026年版 — 帯域が生成速度を決める理由
- ローカルLLM の prompt processing(prefill)ベンチマーク 2026年版 — prefill が効く用途の見極め
- ローカルLLM の VRAM 容量別・動くモデル早見表 2026年版 — 容量から動くモデルを逆引き