RTX 5090 2枚挿しマルチGPUでローカルLLMは本当に速くなるのか 実測検証 2026年版:NVLink廃止・PCIe x8/x8 で tok/sec はどう変わるか
RTX 5090 を2枚にすれば速くなる、は誤解されがちです。NVLink が廃止された Blackwell 世代で2枚挿しすると tok/sec はどう変わるのか。tensor parallel のスループット・レイテンシ・コンテキスト長拡張・70B/120B 搭載可否を、PCIe帯域ボトルネックの実態とあわせて検証する2026年版ベンチマークです。
- #RTX 5090
- #マルチGPU
- #tensor parallel
- #NVLink
- #ローカルLLM
- #tok/sec
- #PCIe
- #vLLM
本記事は Amazon.co.jp および各販売店のアフィリエイトリンクを含む場合があります。推奨は性能・コスパ・実機ベンチマーク基準で編集判断しており、提供記事は受け付けていません。詳細は プライバシーポリシー をご覧ください。

結論:RTX 5090 を2枚にしても、ローカルLLMの生成速度(tok/sec)は2倍にはなりません。NVLink が廃止された Blackwell 世代では2枚挿しが PCIe(多くは x8/x8)経由の通信になり、tensor parallel のオーバーヘッドで素の速度はむしろ単体を下回る計測例もあります。2枚の正しい価値は「速くする」ではなく「載せられるようにする」。単体32GBに載らない70B/120Bを2枚64GBで載せる・コンテキスト長を伸ばす・高同時接続スループットを稼ぐ、の3点です。純粋な倍速を期待して2枚買うと肩透かしを食らいます。
「RTX 5090 を2枚挿せばローカルLLMが2倍速くなるはず」。直感的にはそう思えます。GPUが2倍なら処理も2倍、と。しかし2026年の RTX 5090(Blackwell世代)では、この直感は実態と大きくズレます。
この記事は、マルチGPU構成を検討している人に向けて、「2枚にすると tok/sec はどう変わるのか」を、NVLink廃止・PCIe帯域ボトルネックという2026年固有の事実とあわせて整理します。自前の新規実測がない部分は「公開ベンチの整理」と明示し、数値の捏造はしません。単体GPUの性能比較は「RTX 5090 vs 4090 vs PRO 6000 AI性能比較 2026年版」を先に押さえておくと、増設の損得が見えやすくなります。
前提:NVLink は RTX 3090 が最後だった
マルチGPUの常識が崩れた最大の理由がこれです。
- かつては NVLink でGPU同士を高帯域・低遅延で直結でき、tensor parallel が効率的に働いた
- コンシューマ向けで NVLink を持つのは RTX 3090 が最後。RTX 4090 以降、そして RTX 5090(Blackwell)でも NVLink は無い
- そのため RTX 5090 を2枚挿すと、GPU間通信はマザーボードの PCIe 経由になる。2枚挿すと多くの環境でレーンが分割され、x8/x8(各GPUがPCIe x8)になりがち
GPU間でデータをやり取りするたびに PCIe を通る、しかも帯域が半分(x8)になりやすい。これが2枚挿しの足を引っ張る根本原因です。NVLink世代の「2枚=高効率並列」の感覚は、もう通用しません。なぜレーン数で帯域が決まり、x8 になると何がどれだけ変わるのかは「PCIe レーン x16 / x8 / x4 の違い 2026年版」で用途別に整理しています。
検証1:生成速度(tok/sec)は速くならない
ローカルLLMのトークン生成は、本質的にメモリ読み出し律速で、しかも逐次的(1トークンずつ)です。tensor parallel でモデルを2枚に分割すると、各トークンごとにGPU間で中間結果をやり取りする必要が出ます。NVLink が無い RTX 5090 ではこの通信が PCIe を通るため、通信オーバーヘッドが生成速度を削ります。
公開されている計測例では、同一モデルで単体 1,683 TPS に対し dual 構成が 1,492 TPSと、2枚のほうがむしろ低いケースが報告されています(レイテンシは約3.8倍に増えた例も)。これはバッチサイズ・同時接続数・モデルといった条件込みの数値なので一般化はできませんが、傾向としては明確です。
| 観点 | 単体 RTX 5090 | dual RTX 5090(PCIe x8/x8) |
|---|---|---|
| 単一リクエストの tok/sec | 基準 | 同等〜やや低下(通信オーバーヘッド) |
| レイテンシ | 低い | 増える場合あり |
| GPU間通信 | なし | PCIe経由がボトルネック |
ここで言いたいのは「2枚は無駄」ではなく、素の生成速度の倍化は期待するな、ということです。速さを買うつもりで2枚にすると、配線・電源・発熱のコストに対して見返りが合いません。
→ 1ユーザーの対話を速くしたい人は GeForce RTX 5090 単品 を Amazon.co.jp で見る(単体32GBで30B級まで、70Bは CPU オフロード想定)
検証2:2枚の本当の価値は「容量と並列度」
では何のために2枚にするのか。価値は速度ではなく、以下の3点に集約されます。
- 単体32GBに載らないモデルを載せる:RTX 5090 は VRAM 32GB。70BクラスQ4(約40GB)や120B級は単体に載りません。2枚で合計64GBになれば、これらをGPU内に収められます。CPUオフロードで遅くするより、VRAMに全部載るほうが結果的に快適です
- コンテキスト長を伸ばす:VRAMが増えればKVキャッシュに回せる容量も増え、コンテキスト長を32kから64k以上へ拡張できます。長文処理・長い会話を扱うなら効きます
- 高同時接続スループット:複数ユーザー・多リクエストを同時にさばく用途(社内API、複数エージェント並列)では、バッチをまとめて流すことで2枚分のスループットが活きます
| 目的 | 単体32GBで足りるか | dual 64GB の効果 |
|---|---|---|
| 30B級まで | ○ | 不要 |
| 70B Q4(約40GB) | ✕(オフロード必須) | ○ 全部VRAMに載る |
| 120B級 MoE | ✕ | ○ 載せられる |
| 長コンテキスト(64k+) | △ | ○ KVキャッシュ拡張 |
| 多人数同時接続 | △ | ○ スループット向上 |
70B超のモデルがGPU単体に載らない壁の話は「100B超モデルのGPUベンチマーク 2026年版」、VRAM容量がそもそもなぜ効くのかは「VRAM とローカルLLM推論の関係 2026年版」で詳しく扱っています。
検証3:tensor parallel と既知のハマりどころ
2枚を分割実行で動かす実装面の要点です。深追いはせず、公開情報の整理にとどめます。
- vLLM の tensor parallel(TP=2):モデルを2枚に分割して並列実行する定番。スループット用途では有効だが、GPU間通信が前提なので PCIe帯域が効く
- FP8 対応(SM120):Blackwell 世代(compute capability 12.0 系)では FP8 推論が使え、VRAM とスループットの両面で有利。対応ランタイムのバージョンに注意
- P2P / PCIe の既知問題:コンシューマ環境では GPU間の P2P(ピアツーピア)転送が制限される場合があり、通信がさらに遅くなることがある。マザーボードのレーン構成(x8/x8 か x16/x4 か)で結果が変わる
要するに、2枚構成は「挿せば最適」ではなく、マザーボードのレーン分割・電源・ランタイム設定まで含めて詰めて初めて期待通りに動く領域です。手軽さを求めるなら向きません。
代替案:2枚買う予算で大VRAM単体という選択
近年ますます現実的になっている対抗馬が「2枚買う予算で、大容量VRAMを単体1枚」です。
| dual RTX 5090(64GB) | 大VRAM単体(例: PRO 6000 級) | |
|---|---|---|
| VRAM | 32GB×2=64GB(分割) | 1枚に大容量(分割なし) |
| GPU間通信 | PCIe経由がボトルネック | なし |
| 70B/120B 搭載 | ○(分割して載る) | ○(1枚に丸ごと) |
| 配線・電源・発熱 | 重い(2枚分) | 比較的シンプル |
| 価格 | 5090×2+大容量電源 | 高いが構成は単純 |
| 速度の安定性 | 構成依存でブレる | 読みやすい |
大VRAM単体なら、GPU間通信のボトルネックも tensor parallel の複雑さも無く、70B/120Bを1枚のVRAMに丸ごと載せられます。価格は上がりますが、「容量がほしくて2枚にしようとしている」なら、配線・電源・速度の安定性まで含めて単体大VRAMと比較する価値は十分あります。外付けGPUで帯域がどう効くかという隣接トピックは「eGPU でローカルLLM:Thunderbolt 5 の帯域は足りるか 2026年版」も参考になります。
→ 大VRAM単体の選択肢は NVIDIA RTX PRO 6000 を Amazon.co.jp で見る(96GB VRAM、70B/120B を1枚で完結)
結論:速度目的なら2枚にするな、容量目的なら有効
- 1ユーザーの対話を速くしたい → 2枚にしても速くならない(むしろ遅くなることも)。単体 RTX 5090 で十分。速さを買うなら無駄
- 70B/120Bを載せたい・コンテキストを伸ばしたい・同時接続を捌きたい → 2枚は有効。ただし「容量と並列度」のための増設だと割り切る
- 容量がほしいだけ → 大VRAM単体(PRO 6000 級)との比較を必ずやる。GPU間通信の問題を回避でき、構成も読みやすい
「2枚=倍速」という直感は、NVLink が消えた2026年のコンシューマGPUでは成立しません。2枚挿しは速度向上策ではなく、容量と並列度を買う手段です。ここを取り違えなければ、マルチGPU投資で後悔する確率はぐっと下がります。
入手先・関連商品
当サイトは Amazon.co.jp アソシエイト・プログラムに参加しています。下記リンク経由で購入された場合、紹介料を受け取ることがあります。読者の負担は増えません。リンクは記事評価とは独立しており、編集判断には影響しません。
GPU
- ASUS TUF Gaming GeForce RTX 5090 O32G を Amazon.co.jp で見る — TUF系で安定志向、国内正規代理店品。デュアル組む際の SKU 統一も容易
- GeForce RTX 5090 の他モデル(FE / ROG / Suprim 等)を Amazon.co.jp で見る
- NVIDIA RTX PRO 6000 を Amazon.co.jp で見る
2枚挿しで組む場合に欠かせない電源(容量目的なら大型ケース・レーン分割対応マザーも要確認)
冷却・配線・組み立てで現実問題になるのが下記のアクセサリです。特に 12V-2x6 ケーブル焼損問題 は 5090 でも継続中、純正以外の 適合確認済みケーブル を1本予備で持っておくと安心です。
- CableMod 12V-2x6 16-pin PCIe 5.1 ケーブル を Amazon.co.jp で見る — 純正以外で適合確認済み・5090公式互換。標準ケーブルの差し直し疲労対策にも
- Thermal Grizzly Kryonaut Extreme サーマルグリス を Amazon.co.jp で見る — 2枚挿しは熱密度がきつい。GPU背面プレートのサーマルパッド交換と合わせて使用
- Lian Li O11 Dynamic EVO XL フルタワーケース を Amazon.co.jp で見る — デュアル5090 + 1600W + AIO 360mm が無理なく収まる数少ないケース
- Arctic P14 PWM PST ファン 5パック を Amazon.co.jp で見る — 大型ケースのエアフロー底上げ。コスパが他を寄せ付けない
- PCIe 5.0 x16 ライザーケーブル 300mm を Amazon.co.jp で見る — 2枚目を縦置きまたはサブPCIeスロットに逃がしてエアフロー確保
- LINKUP Ultra PCIe 5.0 Gen5 NVMe SSD ヒートシンク を Amazon.co.jp で見る — GPU 2枚で発熱が増す状況での Gen5 SSD サーマルスロットリング対策
あなたに合うPCを診断する
用途や予算をもう少し細かく入力すると、3つの候補構成を提案します。
→ 診断スタート