AI開発 ガイド

ローカルLLM向けSSD・ストレージ構成ガイド 2026年版:モデルは何TB必要か、Gen5でロードは速くなるか、専用ドライブの分け方

ローカルLLMのモデル保存に必要な容量と、PCIe Gen5 NVMeでモデルロードがどれだけ速くなるかを2026年版で整理。70B Q4で約40GB、複数モデル運用なら2TB以上、4GB/sで40GBを約10秒の目安、OS用と分けた専用ドライブ構成までVRAM以外のストレージ設計を解説します。

  • #ローカルLLM
  • #SSD
  • #ストレージ
  • #PCIe Gen5
  • #NVMe
  • #モデル容量
  • #llama-swap

本記事は Amazon.co.jp および各販売店のアフィリエイトリンクを含む場合があります。推奨は性能・コスパ・実機ベンチマーク基準で編集判断しており、提供記事は受け付けていません。詳細は プライバシーポリシー をご覧ください。

ローカルLLM向けSSD・ストレージ構成ガイド 2026:モデル容量・ロード速度・専用ドライブの分け方

結論:ローカルLLMのストレージは「容量はモデルの数で決め、速度は切り替え頻度で決める」のが正解です。1〜2モデルを試すだけなら512GBでも足りますが、複数モデルを使い分けるなら2TB以上のNVMe SSDを推奨。PCIe Gen5にするメリットはモデルのロードと切り替えが速くなることだけで、推論速度(tok/sec)はストレージでは変わりません。OS・アプリ用と「モデル専用ドライブ」を分け、頻繁にモデルを入れ替えるならGen5、1モデル常駐ならGen4で十分、というのが2026年6月時点の現実的な指針です。

ローカルLLMのPCを組むとき、VRAMやメモリ帯域の話はよく語られます。一方で「SSDはどれくらい必要か」「Gen5にすると速くなるのか」は、意外と曖昧なまま後回しにされがちです。そして実際に使い始めてから「モデルを何個か落としたら容量が足りなくなった」「ロードが遅い気がする」と気づくことになります。

この記事では、ローカルLLMにとってストレージが何を左右するのかを切り分けたうえで、容量の決め方・PCIe世代の選び方・専用ドライブの分け方を具体的な数字で整理します。VRAMやメモリの設計はそれぞれ別記事に譲り、ここは「SSD・ストレージ」だけに絞ります。

まず大原則:SSDは推論速度を変えない

最初に誤解を解いておきます。ローカルLLMでよくある質問が「Gen5 SSDにすれば生成が速くなりますか?」ですが、答えはノーです

トークン生成の速度(tok/sec)を決めるのは、モデルの重みが載っているメモリ(VRAMやUnified Memory)の帯域です。1トークン出すたびにモデル全体をメモリから読み出すため、「1秒間にメモリを何GB読めるか」が律速になります。この仕組みは「メモリ帯域幅(GB/s)がローカルLLMの tok/sec を決める仕組み 2026年版」で詳しく解説しています。

SSDが関わるのは、その手前の「モデルをメモリに載せるまで」だけです。一度ロードが終わってしまえば、推論中にSSDはほとんどアクセスされません。つまりSSDが効くのは次の2つの場面に限られます。

この2つに価値を感じるかどうかが、Gen5にお金をかけるかの分岐点になります。ここを押さえておくと、後の判断がぶれません。

容量:モデルは思ったより早く溜まる

次に容量です。ローカルLLMのモデルファイルは、量子化(圧縮)方式とパラメータ数でサイズが決まります。代表的なところを2026年6月時点の目安でまとめます。

モデル規模Q4量子化のファイルサイズ目安備考
7B / 8B約4〜5GB軽量、何個でも置ける
13B / 14B約8〜9GB中量級の定番
30B / 32B約18〜20GB24GB GPUの目安
70B / 72B約40GB最も需要が多い帯
120B級 MoE約60〜80GBgpt-oss-120b など
235B級100GB超大容量機向け

問題は、ローカルLLMを使い込むほどモデルが1つでは済まなくなることです。コーディング用に1つ、日本語チャット用に1つ、画像系に1つ……と用途で使い分けたくなりますし、同じモデルでもQ4・Q5・Q8と量子化違いを試したくもなります。どのモデル規模のPCにどれが載るかは「ローカルLLM メモリ容量別 動かせるモデル早見表 2026年版」で確認できますが、ストレージはそれを「何種類溜めるか」で効いてきます。

容量の目安はこう考えると分かりやすいです。

  • 512GB:1〜2モデルを試すだけの最小構成。70B 1本+小型数本でほぼ埋まる
  • 1TB:70B級を数本+実験用に小型を複数。標準的なライン
  • 2TB以上:複数モデルを本格的に使い分ける人の推奨ライン。量子化違いやファインチューニング版も溜められる

私のおすすめは、OS・アプリ用とは別に2TBのNVMe SSDをモデル専用に1枚足すことです。理由は次の「専用ドライブ」の話につながります。

専用ドライブを分けるべき理由

ローカルLLMを本気でやるなら、OS・アプリ用ドライブと「モデル専用ドライブ」を物理的に分けることを強くすすめます。1枚のSSDに全部入れるより、運用が一気に楽になります。

分けるメリットは3つあります。

  1. OSドライブを圧迫しない:モデルは数十GB単位で増えるため、Cドライブ(システム)に置くと空き容量がすぐ枯渇する。OS用は容量に余裕を持たせ、モデルは別ドライブに隔離する
  2. 入れ替え・整理が安全:モデル専用ドライブなら、丸ごと整理したりフォーマットし直したりしてもシステムに影響しない
  3. 読み出しが競合しない:ロード中にOSやアプリのI/Oと取り合わないため、ロードが安定して速い

具体的な構成例としては、こんな分け方が扱いやすいです。

ドライブ容量・世代用途
Cドライブ(OS用)1TB Gen4 NVMeWindows / Linux・アプリ・開発環境
Dドライブ(モデル専用)2TB Gen4〜Gen5 NVMeLLMモデル本体・量子化ファイル
アーカイブ(任意)大容量HDD使わないモデル・データセットの倉庫

HDDをモデル置き場に使うのは避けてください。HDDは読み出しが100〜200MB/s程度しかなく、40GBのモデルをロードするだけで数分かかります。同じ40GBをNVMe SSDなら10秒前後で読めるので、起動や切り替えの体感がまるで違います。HDDはあくまで「当面使わないモデルやデータセットの倉庫」に留め、実際に動かすモデルはSSDに置くのが鉄則です。

Gen5にする価値があるのはどんな人か

ここでようやくPCIe世代の話に戻ります。Gen4とGen5のNVMe SSDで、ローカルLLMに効くのは「ロード速度」だけ、というのは前述の通りです。実際にどれくらい違うかを数字で見ます。

世代読み出し速度の目安40GBモデルのロード時間
SATA SSD約550MB/s約70〜80秒
PCIe Gen4 NVMe約4,000〜7,000MB/s約6〜10秒
PCIe Gen5 NVMe約12,000〜14,900MB/s約3〜5秒

Gen5はGen4の約2〜3倍の読み出し速度があり、40GBのモデルなら数秒の差が出ます。ただし、これはあくまで「ロード時の数秒」の差です。Gen4でも40GBが10秒前後で載るので、1つのモデルを起動して使い続けるだけなら、正直Gen5の恩恵はほとんど体感できません。

Gen5が効くのは、モデルを頻繁に切り替える運用です。llama-swap で複数モデルを自動で入れ替えるような使い方では、切り替えのたびに数十GBを読み直すため、ロードが速いほどストレスが減ります。1日に何度もモデルを行き来する人なら、Gen5の差は積み重なって効いてきます。

逆に言えば、次のような人はGen4で十分です。

  • 常駐モデルを決めて使う:起動時の数秒の差は気にならない
  • 予算をVRAM・メモリに回したい:ストレージより、そもそも何が載るかを決めるVRAM/メモリ帯域のほうが投資対効果が高い

ゲームや一般用途まで含めたGen4 vs Gen5の体感差は「Gen4 vs Gen5 SSD の違いと体感差 2026年版」に詳しくまとめています。NAND(TLC/QLC/SLC)の違いによる寿命・速度のトレードオフは「SSD NAND TLC / QLC / SLC の違い 2026年版」を参照してください。モデルを大量に読み書きするLLM用途では、QLCより書き込み耐性の高いTLCを選んでおくと安心です。

価格高騰の今、容量はどう決めるか

2026年6月時点で無視できないのが、NAND(SSDの中身)が歴史的に高騰していることです。AI向けの需要急増でメモリ全体の価格が跳ね上がっており、SSDも例外ではありません。詳しくは「2026年のメモリ・SSD価格高騰はいつまで続くか」にまとめましたが、要点は「短期的な値下がりは見込み薄」ということです。

この状況での現実的な判断はこうなります。

  • 必要な容量は最初に確保する:後から買い足すころにはさらに高くなっている可能性がある。本当に複数モデルを使うなら、2TBを最初に1枚買っておくほうが結果的に安く済むことが多い
  • オーバースペックは避ける:とはいえ高騰時に「念のため4TB」は財布に厳しい。実際に使うモデル数から逆算して、過不足のない容量にする
  • Gen5への上乗せは慎重に:Gen5はGen4より割高。前述の通りロード時しか効かないので、切り替え頻度が高くないなら無理にGen5を選ぶ必要はない

ローカルLLM全体の最低スペックの考え方は「ローカルLLMを動かすPCの最低スペック 2026年版」にまとめています。ストレージはその中で「速度より容量を、世代より用途を見る」パーツだと割り切るのが、コストを抑えるコツです。

入手先・関連商品

当サイトは Amazon.co.jp アソシエイト・プログラムに参加予定です。下記リンク経由で購入された場合、紹介料を受け取ることがあります。読者の負担は増えません。リンクは記事評価とは独立しており、編集判断には影響しません。


あなたに合うPCを診断する

用途や予算をもう少し細かく入力すると、3つの候補構成を提案します。

診断スタート

関連記事