コラム 比較 更新 2026年6月17日

メモリ帯域幅(GB/s)がローカルLLMの tok/sec を決める仕組み 2026年版:VRAM容量より「帯域」を見るべき理由と GPU・Apple・Strix Halo の実数値

ローカルLLMの生成速度(tok/s)はGPU性能やTOPSではなく、ほぼメモリ帯域幅(GB/s)で決まります。tok/s(tok/sec)の読み方から、なぜ帯域がトークン生成を律速するのかの仕組み、RTX 5090・Mac M4 Max/M3 Ultra・Strix Halo・DDR5の実帯域まで並べ、容量と帯域のどちらを優先すべきかの判断軸を示します。

  • #メモリ帯域
  • #ローカルLLM
  • #tok/sec
  • #Unified Memory
  • #VRAM
  • #GPU
  • #Strix Halo
  • #Apple Silicon

本記事は Amazon.co.jp および各販売店のアフィリエイトリンクを含む場合があります。推奨は性能・コスパ・実機ベンチマーク基準で編集判断しており、提供記事は受け付けていません。詳細は プライバシーポリシー をご覧ください。

メモリ帯域幅がローカルLLMの tok/sec を決める仕組み 2026:RTX 5090・Mac・Strix Halo・DDR5 の実帯域を並べて容量より帯域を見る理由を解説

結論:ローカルLLMのトークン生成速度(tok/sec)は、GPUの演算性能やTOPSではなく、ほぼメモリ帯域幅(GB/s)で決まります。理由は、1トークン生成するたびにモデルの全重みをメモリから読み出すから。生成速度の理論上限は「メモリ帯域 ÷ モデルサイズ」で計算でき、実効はその60〜80%程度です。スペックを見るときは、VRAM容量で『動くかどうか』を、メモリ帯域で『動いた後の速さ』を判断する。この2段構えが正解です。容量は門番、帯域は速度。

「VRAMが多ければローカルLLMは速い」とよく言われますが、これは半分正しくて半分間違いです。VRAM容量が決めるのは「そのモデルが載るかどうか」であって、「載った後どれだけ速いか」ではありません。後者を決めるのはメモリ帯域幅(GB/s)です。

この区別を知らないと、買い物で事故ります。たとえば「128GBもあるのに70Bが遅い」と落胆したり、逆に「32GBしかないGPUが爆速」に驚いたり。私はこの記事で、なぜ帯域がトークン生成速度を支配するのかを仕組みから説明し、主要ハードの実帯域を一枚に並べて、容量と帯域のどちらを優先すべきかの判断軸を渡します。一度わかると、スペック表の見え方が変わります。

tok/s(tok/sec)とは何かを30秒で

本題に入る前に、この記事で繰り返し出てくる tok/s(tok/sec) という単位だけ先に押さえておきます。tok/s は tokens per second=1秒間に生成できるトークン数 のことで、「文章がどれだけサクサク出てくるか」の速度指標です。日本語ではおおよそ1トークン=1〜2文字程度に対応します。

ポイントは、この tok/s が指すのは後述するトークン生成(decode)フェーズの速度だということ。そして本記事の核心は、この値が「メモリ帯域 ÷ モデルサイズ」でほぼ決まる、という1点です。だから tok/s を上げたければ、帯域の高いハードを選ぶか、モデルを小さくするかのどちらか。GPUの演算性能やTOPSをいくら上げても tok/s はほとんど変わりません。この理由を、これから仕組みから説明します。なお、ここで言う「モデルサイズ」がそもそも何で決まるか(7B/70Bといったパラメータ数)は「ローカルLLMのパラメータ数 7B / 13B / 70B / 405B とは何か」で扱っています。

なぜ「帯域」が速度を決めるのか:1トークン=全重み読み出し

まず仕組みです。大規模言語モデルがテキストを生成するとき、内部では大きく2つのフェーズが走ります。

  1. prefill(プロンプト処理):入力された文章を一気に読み込んで内部状態を作る。ここは行列演算が主役で、GPUの演算性能(FLOPS / TOPS)が効く
  2. decode(トークン生成):1トークンずつ次の単語を生成していく。ここでは毎回モデルの全パラメータ(重み)をメモリから読み出す

問題は2つ目の decode です。70Bモデルを4bit量子化(Q4)すると約40GBの重みになります。この40GBを、1トークン生成するたびに丸ごとメモリから読み込む必要があります。つまり、1秒間に何トークン出せるかは「1秒間にメモリから何GB読めるか」=メモリ帯域で頭打ちになる、というわけです。

ここで効かないのがGPUの演算性能です。decode の計算自体は軽く、ボトルネックは「重みをメモリから運んでくる時間」。いくら演算ユニットが速くても、データが届かなければ手持ち無沙汰になります。トラックの荷台がどれだけ大きく、エンジンがどれだけ速くても、荷物を積む道幅(帯域)が狭ければ運べる量は道幅で決まります。ローカルLLMの decode は、まさにこの状態です。

理論上限の計算式:帯域 ÷ モデルサイズ

仕組みがわかると、生成速度の理論上限がざっくり計算できます。

理論 tok/sec ≒ メモリ帯域(GB/s) ÷ モデルサイズ(GB)

実例を出します。メモリ帯域800GB/sのマシンで、40GBのモデル(70B Q4相当)を動かす場合:

  • 理論上限 = 800 ÷ 40 = 20 tok/s
  • 実効値 = 理論の60〜80% = 12〜16 tok/s

実効が理論を下回るのは、KVキャッシュの読み書き、メモリアクセスの非効率、ソフトウェアのオーバーヘッドなどがあるからです。それでも「帯域 ÷ サイズ」で出した理論値は、実測のだいたいの目安として驚くほどよく当たります。

この式から2つの重要な帰結が出ます。

  • モデルが小さいほど速い:8B Q4(約4.6GB)なら 800 ÷ 4.6 ≒ 174 tok/s が理論上限。小型モデルが爆速なのはこのため
  • 帯域が高いほど速い:同じ40GBモデルでも、帯域1,792GB/s(RTX 5090)なら理論44 tok/s、帯域215GB/s(Strix Halo)なら理論5.4 tok/s

「同じモデルなのにハードで速度が桁違い」の正体は、この帯域差です。

主要ハードの実メモリ帯域(2026年版・一枚表)

では実際のハードはどれくらいの帯域を持つのか。ローカルLLMで使われる主要な選択肢を並べます。

ハードメモリ帯域メモリ種別利用可能容量
RTX 5090約1,792 GB/sGDDR732GB
RTX 4090約1,008 GB/sGDDR6X24GB
Mac Studio M3 Ultra約800 GB/sLPDDR5X(Unified)最大512GB
Mac Studio M4 Max約546 GB/sLPDDR5X(Unified)最大128GB
Ryzen AI MAX+ 395(Strix Halo)約215〜256 GB/sLPDDR5X(Unified)最大96GBをVRAM割当
DDR5-6000 デュアルチャネル(CPUのみ)約96 GB/sDDR5(システムRAM)容量次第

この表が、ローカルLLMの速度序列をほぼそのまま表しています。RTX 5090 が最速なのは演算が速いからではなく、帯域が群を抜いて高いから。逆にCPU+システムRAMだけでLLMを動かすと絶望的に遅いのは、DDR5デュアルチャネルの帯域が約96GB/sしかないからです。GPUやUnified Memoryと比べて1桁狭い道幅では、大きなモデルの重みを運びきれません。

各方式の帯域とアーキテクチャの違い、つまりなぜUnified MemoryとGDDRで設計思想が違うのかは「Apple Silicon の Unified Memory と NVIDIA VRAM、ローカルLLM では何が違うのか 2026年版」で掘り下げています。

容量 vs 帯域:門番と速度、優先順位の決め方

ここまでで「帯域=速度」はわかりました。ではVRAM容量は何のためにあるのか。容量と帯域は役割が違います。

観点VRAM/メモリ容量メモリ帯域
決めることそのモデルが動くか動かないか動いた後の速さ
たとえると入店できる人数(門番)接客のスピード
足りないとモデルがロードできず起動すらしないロードはできるがもっさり遅い

判断の順序はこうです。

  1. まず容量で「動くか」を確保する:動かしたいモデルが載らなければ、帯域がいくら高くても無意味。32GBのRTX 5090は帯域最強でも、70B Q8(約70GB)は物理的に載らないので動かせない
  2. 次に帯域で「速さ」を取る:載ることが確定したら、帯域が高いほど快適

具体例で整理します。70Bクラス(Q4、約40GB)を動かしたい場合:

  • RTX 5090(32GB):容量不足で70B Q4はそのままでは載らない(門番で弾かれる)。複数枚や量子化を詰めれば別だが、単体では不可
  • Strix Halo(128GB→96GB割当):容量はクリア(門番OK)。ただし帯域215GB/sなので速度は5〜8 tok/s と控えめ
  • Mac Studio M3 Ultra(最大512GB):容量も帯域(800GB/s)も余裕。速度・容量の両取り

つまり「70Bが動くStrix Halo」と「帯域の高いMac/dGPU」は、どちらも70Bを扱えますが体感が違う。Strix Haloは「動くけどゆっくり」、MacやハイエンドdGPUは「動いてしかも速い」。同じ「70B対応」という看板でも、中身は別物です。

よくある勘違いトップ3

帯域の理解が浅いと陥りがちな誤解を、まとめて潰しておきます。

  1. 「TOPSが高い=LLMが速い」:TOPSはNPU/GPUの演算性能の指標で、decode(生成)にはほぼ効きません。NPU 50 TOPSをうたうチップでも、帯域が狭ければ生成は遅い。TOPSが効くのは prefill や画像生成など演算律速の処理です
  2. 「VRAMが多い=速い」:容量は門番であって速度計ではありません。128GBあっても帯域が低ければ生成は遅い
  3. 「prompt processing の数字=生成速度」:海外ベンチで「500〜800 tok/s」のような数字を見たら、たいてい prompt processing(prefill)の値です。あなたが体感する「文章がダラダラ出てくる速さ」はトークン生成(decode)の数字(多くは1桁〜数十 tok/s)のほうです。ここを混同すると期待値が壊れます

特に3つ目は製品レビューでも事故が多いポイントです。ベンチ数値を見るときは「これは pp(prefill)か tg(decode)か」を必ず確認してください。

まとめ:スペック表は「容量で動くか、帯域で速いか」の2段で読む

ローカルLLM向けにハードを選ぶときの読み方を、最後に1行で。

容量で『そのモデルが動くか』を確認し、帯域で『どれだけ速いか』を見積もる。

この2段構えさえ身につければ、スペック表の数字に振り回されなくなります。「128GBもあるのに遅い」は帯域を見れば予測できたし、「32GBなのに爆速」も帯域を見れば当然でした。VRAM容量の大きさに目を奪われがちですが、生成速度を決めているのは静かに帯域です。

VRAM容量そのものの決め方(どのモデルにどれだけ要るか)は「VRAMとは何か。ローカルLLM推論で必要な量の決まり方 2026年版」、AMD Strix Halo が大容量を共有メモリで実現する仕組みは「AMD Strix Halo の Unified Memory とは 2026年版」で扱っています。容量と帯域、両輪で理解すると機種選びの解像度が一段上がります。

ハードを買い替えずに tok/s を上げる手段

「帯域 ÷ モデルサイズ」が上限を決める、という大原則は変わりません。ただ、ハードを買い替えなくても実効の tok/s を引き上げる手はいくつかあります。整理しておきます。

  • モデルサイズ(GB)を減らす:量子化で重みを軽くすれば、式の分母が小さくなり tok/s が上がります。どのフォーマットでどれだけ軽くなるかは「ローカルLLMの量子化フォーマットとは 2026年版」を参照
  • 投機的デコードを使う:小さなドラフトモデルに数トークン先読みさせ、大モデルが一括検証する手法です。**出力は大モデル単体と完全に一致(ロスレス)**したまま、コード生成・構造化出力で1.5〜3倍速くなります。帯域もモデルサイズも変えずソフト側だけで効くのが特徴。詳しくは「投機的デコード(Speculative Decoding)とは 2026年版」で解説しています

逆に「GPUのTOPSや演算性能を上げる」のは decode の tok/s にはほぼ効きません。tok/s を上げたいなら、帯域を上げる(ハード)か、モデルを小さくする(量子化)か、先読みで確定を稼ぐ(投機的デコード)か。この3方向で考えるのが正解です。なお実際のGPU別 tok/s 実測は「Llama 3.3 70B GPU別トークン/秒 2026年版」に並べています。

入手先・関連商品

当サイトは Amazon.co.jp アソシエイト・プログラムに参加予定です。下記リンク経由で購入された場合、紹介料を受け取ることがあります。読者の負担は増えません。リンクは記事評価とは独立しており、編集判断には影響しません。

本文で帯域を比較したハードの参考リンクです。


あなたに合うPCを診断する

用途や予算をもう少し細かく入力すると、3つの候補構成を提案します。

診断スタート

関連記事