RTX 5090 を2枚にすればローカルLLMは2倍速くなる？

なりません。NVLink が廃止された Blackwell 世代の RTX 5090 は、2枚挿しでも PCIe（多くの環境で x8/x8）経由でGPU間通信するため、tensor parallel のオーバーヘッドで素の生成速度（tok/sec）はむしろ単体を下回る計測例もあります。2枚の価値は速度の倍化ではなく、単体32GBに載らない70B/120Bを2枚64GBで載せる・コンテキスト長を伸ばす・高同時接続スループットを稼ぐ、といった「容量と並列度」にあります。

RTX 5090 2枚で何ができるようになる？

主に3つです。(1) 単体32GBに載らない70B/120BクラスのモデルをVRAM 64GBで載せる、(2) コンテキスト長を32kから64k以上へ伸ばす、(3) 多人数・多リクエストの同時接続スループットを上げる。逆に1ユーザーの対話を少しでも速くしたい用途では、2枚にしてもレイテンシが増える場合があり、増設のメリットは薄いです。

2枚買う予算があるなら、大VRAM単体のほうがいい？

用途次第ですが、検討する価値は十分あります。RTX PRO 6000 のような大容量VRAMを単体で1枚積めば、GPU間通信のボトルネックがなく、70B/120Bを1枚のVRAMに収められます。tensor parallel の複雑さや PCIe帯域の問題を避けられる一方、価格は高くなります。「2枚で容量を稼ぐ」か「1枚で大容量」かは、配線の手間・電源・速度の安定性まで含めて比較するのがおすすめです。

RTX 5090 の2枚差しはやめたほうがいい？

「速くしたい」だけが目的ならやめたほうがいいです。NVLink が廃止され PCIe（多くは x8/x8）経由の通信になる Blackwell 世代では、tensor parallel のオーバーヘッドが乗り、素の生成速度（tok/sec）は単体を下回る計測例もあります。2枚に価値が出るのは速度ではなく、70B/120Bを2枚64GBで載せる・コンテキスト長を伸ばす・高同時接続スループットを稼ぐといった「容量と並列度」を必要とする場合だけ。1ユーザーの対話を速くしたいなら単体 RTX 5090 で十分で、2枚は配線・電源・発熱のコストに見合いません。

RTX 5090 に NVLink はある？2枚を繋げられる？

RTX 5090 に NVLink はありません。コンシューマ向けで NVLink を持つのは RTX 3090 が最後で、RTX 4090 以降そして Blackwell 世代の RTX 5090 にも搭載されていません。2枚を物理的に挿すことはできますが、GPU間の通信は NVLink ではなくマザーボードの PCIe 経由（多くの環境で x8/x8 に分割）になります。そのため「NVLink で高速直結された2枚」のような効率は期待できません。

RTX 5090 2枚挿しマルチGPUでローカルLLMは本当に速くなるのか実測検証 2026年版：NVLink廃止・PCIe x8/x8 で tok/sec はどう変わるか

本記事は Amazon.co.jp および各販売店のアフィリエイトリンクを含む場合があります。推奨は性能・コスパ・実機ベンチマーク基準で編集判断しており、提供記事は受け付けていません。詳細はプライバシーポリシーをご覧ください。

RTX 5090 2枚挿しマルチGPUでローカルLLMは本当に速くなるのか 2026：NVLink廃止・PCIe x8/x8 検証

結論：RTX 5090 を2枚にしても、ローカルLLMの生成速度（tok/sec）は2倍にはなりません。NVLink が廃止された Blackwell 世代では2枚挿しが PCIe（多くは x8/x8）経由の通信になり、tensor parallel のオーバーヘッドで素の速度はむしろ単体を下回る計測例もあります。2枚の正しい価値は「速くする」ではなく「載せられるようにする」。単体32GBに載らない70B/120Bを2枚64GBで載せる・コンテキスト長を伸ばす・高同時接続スループットを稼ぐ、の3点です。純粋な倍速を期待して2枚買うと肩透かしを食らいます。

「RTX 5090 を2枚挿せばローカルLLMが2倍速くなるはず」。直感的にはそう思えます。GPUが2倍なら処理も2倍、と。しかし2026年の RTX 5090（Blackwell世代）では、この直感は実態と大きくズレます。

この記事は、マルチGPU構成を検討している人に向けて、「2枚にすると tok/sec はどう変わるのか」を、NVLink廃止・PCIe帯域ボトルネックという2026年固有の事実とあわせて整理します。自前の新規実測がない部分は「公開ベンチの整理」と明示し、数値の捏造はしません。単体GPUの性能比較は「RTX 5090 vs 4090 vs PRO 6000 AI性能比較 2026年版」を先に押さえておくと、増設の損得が見えやすくなります。

前提：NVLink は RTX 3090 が最後だった

マルチGPUの常識が崩れた最大の理由がこれです。

かつては NVLink でGPU同士を高帯域・低遅延で直結でき、tensor parallel が効率的に働いた
コンシューマ向けで NVLink を持つのは RTX 3090 が最後。RTX 4090 以降、そして RTX 5090（Blackwell）でも NVLink は無い
そのため RTX 5090 を2枚挿すと、GPU間通信はマザーボードの PCIe 経由になる。2枚挿すと多くの環境でレーンが分割され、x8/x8（各GPUがPCIe x8）になりがち

GPU間でデータをやり取りするたびに PCIe を通る、しかも帯域が半分（x8）になりやすい。これが2枚挿しの足を引っ張る根本原因です。NVLink世代の「2枚＝高効率並列」の感覚は、もう通用しません。なぜレーン数で帯域が決まり、x8 になると何がどれだけ変わるのかは「PCIe レーン x16 / x8 / x4 の違い 2026年版」で用途別に整理しています。

検証1：生成速度（tok/sec）は速くならない

ローカルLLMのトークン生成は、本質的にメモリ読み出し律速で、しかも逐次的（1トークンずつ）です。tensor parallel でモデルを2枚に分割すると、各トークンごとにGPU間で中間結果をやり取りする必要が出ます。NVLink が無い RTX 5090 ではこの通信が PCIe を通るため、通信オーバーヘッドが生成速度を削ります。

公開されている計測例では、同一モデルで単体 1,683 TPS に対し dual 構成が 1,492 TPSと、2枚のほうがむしろ低いケースが報告されています（レイテンシは約3.8倍に増えた例も）。これはバッチサイズ・同時接続数・モデルといった条件込みの数値なので一般化はできませんが、傾向としては明確です。

観点	単体 RTX 5090	dual RTX 5090（PCIe x8/x8）
単一リクエストの tok/sec	基準	同等〜やや低下（通信オーバーヘッド）
レイテンシ	低い	増える場合あり
GPU間通信	なし	PCIe経由がボトルネック

ここで言いたいのは「2枚は無駄」ではなく、素の生成速度の倍化は期待するな、ということです。速さを買うつもりで2枚にすると、配線・電源・発熱のコストに対して見返りが合いません。

→ 1ユーザーの対話を速くしたい人は GeForce RTX 5090 単品を Amazon.co.jp で見る（単体32GBで30B級まで、70Bは CPU オフロード想定）

検証2：2枚の本当の価値は「容量と並列度」

では何のために2枚にするのか。価値は速度ではなく、以下の3点に集約されます。

単体32GBに載らないモデルを載せる：RTX 5090 は VRAM 32GB。70BクラスQ4（約40GB）や120B級は単体に載りません。2枚で合計64GBになれば、これらをGPU内に収められます。CPUオフロードで遅くするより、VRAMに全部載るほうが結果的に快適です
コンテキスト長を伸ばす：VRAMが増えればKVキャッシュに回せる容量も増え、コンテキスト長を32kから64k以上へ拡張できます。長文処理・長い会話を扱うなら効きます
高同時接続スループット：複数ユーザー・多リクエストを同時にさばく用途（社内API、複数エージェント並列）では、バッチをまとめて流すことで2枚分のスループットが活きます

目的	単体32GBで足りるか	dual 64GB の効果
30B級まで	○	不要
70B Q4（約40GB）	✕（オフロード必須）	○ 全部VRAMに載る
120B級 MoE	✕	○ 載せられる
長コンテキスト（64k+）	△	○ KVキャッシュ拡張
多人数同時接続	△	○ スループット向上

70B超のモデルがGPU単体に載らない壁の話は「100B超モデルのGPUベンチマーク 2026年版」、VRAM容量がそもそもなぜ効くのかは「VRAM とローカルLLM推論の関係 2026年版」で詳しく扱っています。

検証3：tensor parallel と既知のハマりどころ

2枚を分割実行で動かす実装面の要点です。深追いはせず、公開情報の整理にとどめます。

vLLM の tensor parallel（TP=2）：モデルを2枚に分割して並列実行する定番。スループット用途では有効だが、GPU間通信が前提なので PCIe帯域が効く
FP8 対応（SM120）：Blackwell 世代（compute capability 12.0 系）では FP8 推論が使え、VRAM とスループットの両面で有利。対応ランタイムのバージョンに注意
P2P / PCIe の既知問題：コンシューマ環境では GPU間の P2P（ピアツーピア）転送が制限される場合があり、通信がさらに遅くなることがある。マザーボードのレーン構成（x8/x8 か x16/x4 か）で結果が変わる

要するに、2枚構成は「挿せば最適」ではなく、マザーボードのレーン分割・電源・ランタイム設定まで含めて詰めて初めて期待通りに動く領域です。手軽さを求めるなら向きません。

代替案：2枚買う予算で大VRAM単体という選択

近年ますます現実的になっている対抗馬が「2枚買う予算で、大容量VRAMを単体1枚」です。

	dual RTX 5090（64GB）	大VRAM単体（例: PRO 6000 級）
VRAM	32GB×2＝64GB（分割）	1枚に大容量（分割なし）
GPU間通信	PCIe経由がボトルネック	なし
70B/120B 搭載	○（分割して載る）	○（1枚に丸ごと）
配線・電源・発熱	重い（2枚分）	比較的シンプル
価格	5090×2＋大容量電源	高いが構成は単純
速度の安定性	構成依存でブレる	読みやすい

大VRAM単体なら、GPU間通信のボトルネックも tensor parallel の複雑さも無く、70B/120Bを1枚のVRAMに丸ごと載せられます。価格は上がりますが、「容量がほしくて2枚にしようとしている」なら、配線・電源・速度の安定性まで含めて単体大VRAMと比較する価値は十分あります。外付けGPUで帯域がどう効くかという隣接トピックは「eGPU でローカルLLM：Thunderbolt 5 の帯域は足りるか 2026年版」も参考になります。

→ 大VRAM単体の選択肢は NVIDIA RTX PRO 6000 を Amazon.co.jp で見る（96GB VRAM、70B/120B を1枚で完結）

結論：速度目的なら2枚にするな、容量目的なら有効

1ユーザーの対話を速くしたい → 2枚にしても速くならない（むしろ遅くなることも）。単体 RTX 5090 で十分。速さを買うなら無駄
70B/120Bを載せたい・コンテキストを伸ばしたい・同時接続を捌きたい → 2枚は有効。ただし「容量と並列度」のための増設だと割り切る
容量がほしいだけ → 大VRAM単体（PRO 6000 級）との比較を必ずやる。GPU間通信の問題を回避でき、構成も読みやすい

「2枚＝倍速」という直感は、NVLink が消えた2026年のコンシューマGPUでは成立しません。2枚挿しは速度向上策ではなく、容量と並列度を買う手段です。ここを取り違えなければ、マルチGPU投資で後悔する確率はぐっと下がります。

入手先・関連商品

当サイトは Amazon.co.jp アソシエイト・プログラムに参加しています。下記リンク経由で購入された場合、紹介料を受け取ることがあります。読者の負担は増えません。リンクは記事評価とは独立しており、編集判断には影響しません。

GPU

ASUS TUF Gaming GeForce RTX 5090 O32G を Amazon.co.jp で見る — TUF系で安定志向、国内正規代理店品。デュアル組む際の SKU 統一も容易
GeForce RTX 5090 の他モデル（FE / ROG / Suprim 等）を Amazon.co.jp で見る
NVIDIA RTX PRO 6000 を Amazon.co.jp で見る

2枚挿しで組む場合に欠かせない電源（容量目的なら大型ケース・レーン分割対応マザーも要確認）

1600W 電源ユニット ATX 3.1 を Amazon.co.jp で見る

冷却・配線・組み立てで現実問題になるのが下記のアクセサリです。特に 12V-2x6 ケーブル焼損問題 は 5090 でも継続中、純正以外の 適合確認済みケーブル を1本予備で持っておくと安心です。

CableMod 12V-2x6 16-pin PCIe 5.1 ケーブルを Amazon.co.jp で見る — 純正以外で適合確認済み・5090公式互換。標準ケーブルの差し直し疲労対策にも
Thermal Grizzly Kryonaut Extreme サーマルグリスを Amazon.co.jp で見る — 2枚挿しは熱密度がきつい。GPU背面プレートのサーマルパッド交換と合わせて使用
Lian Li O11 Dynamic EVO XL フルタワーケースを Amazon.co.jp で見る — デュアル5090 + 1600W + AIO 360mm が無理なく収まる数少ないケース
Arctic P14 PWM PST ファン 5パックを Amazon.co.jp で見る — 大型ケースのエアフロー底上げ。コスパが他を寄せ付けない
PCIe 5.0 x16 ライザーケーブル 300mm を Amazon.co.jp で見る — 2枚目を縦置きまたはサブPCIeスロットに逃がしてエアフロー確保
LINKUP Ultra PCIe 5.0 Gen5 NVMe SSD ヒートシンクを Amazon.co.jp で見る — GPU 2枚で発熱が増す状況での Gen5 SSD サーマルスロットリング対策

あなたに合うPCを診断する

用途や予算をもう少し細かく入力すると、3つの候補構成を提案します。

→ 診断スタート