Ryzen AI MAX+ 395(Strix Halo)VRAM割り当て・初期セットアップ完全ガイド 2026年版:BIOS UMA / GTT / ROCm vs Vulkan で 96GB を LLM に割り当てる
Strix Halo(Ryzen AI MAX+ 395)で 70B モデルを動かすための VRAM割り当て手順を、Windows の AMD可変グラフィックスメモリと Linux の GTT(amdgpu.gttsize)両対応で解説。BIOS の UMA Frame Buffer 設定、ROCm と Vulkan の速度差、96GB割当の実値まで、機種を買った後に詰まる初期設定を一本化します。
- #Strix Halo
- #Ryzen AI MAX+ 395
- #VRAM割り当て
- #UMA Frame Buffer
- #amdgpu.gttsize
- #ROCm
- #Vulkan
- #ローカルLLM
- #GMKtec EVO-X2
- #BIOS設定
本記事は Amazon.co.jp および各販売店のアフィリエイトリンクを含む場合があります。推奨は性能・コスパ・実機ベンチマーク基準で編集判断しており、提供記事は受け付けていません。詳細は プライバシーポリシー をご覧ください。

結論:Strix Halo(Ryzen AI MAX+ 395)で 70B を動かす鍵は「OS に合わせた VRAM 割り当て方法を選ぶこと」です。Windows なら BIOS の UMA Frame Buffer を大きめに取り、AMD Software の可変グラフィックスメモリ(VGM)で最大 96GB を GPU に振る。Linux なら逆に BIOS の UMA を小さく保ち、カーネルパラメータ amdgpu.gttsize で GTT 共有プールに任せる方が柔軟です。推論バックエンドは、現状 gfx1151 では Vulkan(RADV)が ROCm より速くセットアップも簡単なので、まず Vulkan で動かしてから ROCm を試すのが最短ルートです。
GMKtec EVO-X2、Framework Desktop、ASUS ROG Flow Z13 など Ryzen AI MAX+ 395(Strix Halo)搭載機が 2026 年に出揃い、「30〜50 万円で 70B クラスを動かせる x86 マシン」が現実になりました。ところが実機が届いた後、「VRAM をどう 96GB に割り当てるのか」「BIOS のどこを触ればいいのか」「ROCm を入れたのに遅い」といった買った後の初期設定で詰まる人が続出しています。
この記事は、機種比較やベンチマークのその先、**「届いた Strix Halo 機で実際に LLM を動かすまで」**に絞った手順ガイドです。実機 tok/sec の数字は「Ryzen AI MAX+ 395(Strix Halo)ローカルLLM 実機ベンチマーク 2026年版」に、機種選びは「Strix Halo ミニPC 比較 2026年版」に譲り、ここでは「動かすまで」に集中します。
まず全体像:Strix Halo の VRAM は「固定」ではなく「割り当て」
通常の dGPU は VRAM の量が物理的に固定です。RTX 5090 なら 32GB、それ以上は載りません。一方 Strix Halo は Unified Memory(最大 128GB)から GPU 用に切り出す方式なので、「どれだけ VRAM 化するか」を自分で決める必要があります。ここが初見で混乱するポイントです。
この「切り出し」には 3 つのレイヤーがあります。
| レイヤー | 何を決めるか | 設定場所 |
|---|---|---|
| BIOS(UMA Frame Buffer) | GPU 専用に固定確保する量 | BIOS / UEFI |
| OS の動的割り当て | 残りプールから動的に GPU が借りる量 | Windows: AMD Software / Linux: amdgpu.gttsize |
| 推論ランタイム | モデルを GPU に載せる量(レイヤー数) | Ollama / llama.cpp / LM Studio |
Strix Halo の Unified Memory そのものの構造(256bit LPDDR5X、なぜ iGPU で 70B が動くか)は「AMD Strix Halo の Unified Memory とは」で解説しています。本記事はその上で「実際の割り当てコマンド・設定値」を扱います。
BIOS 設定:UMA Frame Buffer Size の場所
どの機種でも最初に触るのが BIOS の UMA Frame Buffer Size(GPU 専用に固定確保するメモリ量)です。AMD プラットフォームでの一般的なパスは以下です。
Advanced
└ AMD CBS
└ NBIO Common Options
└ GFX Configuration
└ UMA Frame Buffer Size
機種によってはこの深いパスではなく、簡易メニューが用意されています。
- Framework Desktop:「AI Memory Reservation」のようなわかりやすい項目が独立して用意されている
- ASUS ROG Flow Z13 / 一部ミニPC:Advanced 内に簡略化されたグラフィックスメモリ設定がある
- GMKtec EVO-X2:BIOS の Advanced → AMD CBS 配下にフルパスで存在(簡易メニューは薄め)
設定できる値は機種・BIOS バージョンで異なりますが、おおむね Auto / 512MB / ... / 48GB / 64GB / 96GB のような段階から選びます。ここで決めた量は OS から「通常の RAM」としては見えなくなる点に注意してください。96GB を固定確保すれば、128GB モデルでも OS/CPU が使える RAM は約 32GB になります。
重要:BIOS で固定する量は OS によって方針が真逆
ここが本記事の最重要ポイントです。Windows と Linux で UMA Frame Buffer の取り方が逆になります。
| Windows | Linux | |
|---|---|---|
| BIOS UMA Frame Buffer | 大きめ(例: 48〜96GB) | 小さめ(Auto / 4〜8GB) |
| 動的割り当ての主役 | AMD Software の VGM | カーネルの GTT(amdgpu.gttsize) |
| 理由 | VGM は BIOS 確保分を土台に拡張する | GTT が動的に確保するため固定は最小で良い |
なぜこうなるのかを、それぞれ見ていきます。
Windows:AMD 可変グラフィックスメモリ(VGM)で 96GB
Windows では、BIOS の UMA Frame Buffer に加えて AMD Software(Adrenalin / AMD Software for Ryzen AI)の可変グラフィックスメモリ(Variable Graphics Memory, VGM) を使います。
手順
- BIOS で UMA Frame Buffer Size を大きめ(例: 64GB)に設定
- Windows 起動後、最新の AMD Software をインストール
- AMD Software → パフォーマンス → チューニング(または「グラフィックス」設定)から 可変グラフィックスメモリ を有効化
- 割り当て量を「最大(High / 96GB 相当)」に設定して再起動
- タスクマネージャー → パフォーマンス → GPU で「専用 GPU メモリ」が大きく表示されることを確認
128GB モデルなら、ここで 最大 96GB を GPU に、残り約 32GB を OS/CPU に という配分になります。70B Q4_K_M(実ファイル約 42GB)はこの 96GB に余裕で収まり、コンテキスト長を伸ばすための KV キャッシュ領域も確保できます。
Windows での確認
Ollama や LM Studio でモデルをロードした際、GPU offload が 100%(全レイヤー GPU)になっていれば成功です。LM Studio では「GPU Offload」スライダーを最大に、Ollama では環境変数や Modelfile で全レイヤーを GPU に載せます。
Linux:BIOS は最小、GTT(amdgpu.gttsize)に任せる
Linux(CachyOS / Ubuntu / Fedora 系)では、考え方が変わります。amdgpu ドライバの GTT(Graphics Translation Table) という共有メモリプールが、システム RAM から動的に GPU 用メモリを確保できるため、BIOS の固定 carve-out はむしろ小さく保つ方が柔軟です。
手順
- BIOS の UMA Frame Buffer Size は Auto か 4〜8GB と小さく設定
- カーネルパラメータで GTT サイズを拡張する
GRUB を使う場合、/etc/default/grub の GRUB_CMDLINE_LINUX_DEFAULT に以下を追記します(単位は 4KB ページ数。例は約 120GB 相当)。
amdgpu.gttsize=122880 ttm.pages_limit=33554432
amdgpu.gttsize… GTT で GPU が確保できる上限(MiB 指定の環境もあるため、ディストリ/カーネルのドキュメントで単位を確認)ttm.pages_limit… TTM(メモリマネージャ)が扱えるページ上限。GTT を大きく取るならこれも引き上げる
設定後、GRUB を更新して再起動します。
sudo update-grub # Ubuntu/Debian 系
# または sudo grub-mkconfig -o /boot/grub/grub.cfg (Arch/CachyOS 系)
sudo reboot
Linux での確認
再起動後、GPU が確保できるメモリ量を確認します。
# amdgpu の VRAM / GTT を確認
sudo dmesg | grep -i "amdgpu.*memory"
# あるいは
cat /sys/kernel/debug/dri/0/amdgpu_gtt_mm # 要 root
GTT が想定どおり拡張されていれば、llama.cpp で全レイヤーを GPU に載せられます。Linux ルートは BIOS で固定枠を取らない分、LLM を回さないときはその RAM を通常用途に使えるのが利点です。CachyOS や Ubuntu のコミュニティでは、この GTT 方式で 96GB 超を LLM に回す実例が共有されています。
ROCm vs Vulkan:まず Vulkan で動かすのが最短
割り当てが終わったら推論バックエンドを選びます。Strix Halo の iGPU は gfx1151(Radeon 8060S, RDNA 3.5)で、ここでのバックエンド選択が体感速度を左右します。
| バックエンド | セットアップ難度 | gfx1151 での速度 | 備考 |
|---|---|---|---|
| Vulkan(RADV) | 易(Mesa を入れるだけ) | 速い傾向 | llama.cpp の Vulkan ビルドで動く |
| ROCm(HIP) | 中〜難(gfx1151 対応が要バージョン選定) | Vulkan に劣るケース多 | 行列演算系では伸びる場面も |
2026 年前半時点のコミュニティ llama.cpp ベンチでは、gfx1151 では RADV(Mesa の Vulkan ドライバ)が ROCm HIP バックエンドを上回る報告が目立ちます。セットアップも Mesa ドライバを入れて llama.cpp の Vulkan ビルドを使うだけで、ROCm のバージョン地獄を避けられます。
Vulkan ルート(推奨スタート)
- Linux:Mesa(RADV 含む)は多くのディストリで標準。llama.cpp を
-DGGML_VULKAN=ONでビルド、または Vulkan 対応バイナリを使う - Windows:AMD ドライバに Vulkan ランタイムが含まれる。llama.cpp / LM Studio の Vulkan バックエンドを選択
ROCm ルート(伸ばしたい人向け)
ROCm を使う場合、gfx1151 は比較的新しい GPU なので 対応バージョンの選定が肝です。安定して動かすなら、AMD がコンシューマ向け Ryzen AI 環境向けに整備している Lemonade SDK の llama.cpp nightly(ROCm 7 系 / gfx1151 対応ビルド)を使うのが現実的です。自前で ROCm をフルビルドするより、対応済みパッケージを使う方が早く確実に動きます。
セットアップの順番としては「① Vulkan で全レイヤー GPU offload を確認 → ② 余力があれば ROCm を試して速い方を採用」が遠回りに見えて最短です。最初から ROCm にこだわると、ドライバの相性で何時間も溶かしがちです。
動作確認:70B が GPU に全部載ったか
最後に、モデルが本当に GPU に載りきっているかを確認します。CPU にあふれていると速度が一桁落ちます。
- Ollama:
ollama run llama3.3:70b後、別ターミナルでollama psを実行。PROCESSORが100% GPUなら成功(CPU表示が混ざるとオフロード不足) - llama.cpp:起動ログの
offloaded N/N layers to GPUが「全レイヤー」になっているか確認 - LM Studio:GPU Offload スライダーを最大にし、ロード後の GPU メモリ使用量がモデルサイズ + KV キャッシュ分に達しているか
ここまでで「70B Q4_K_M が iGPU 単体で全レイヤー GPU 動作」が確認できれば、初期セットアップは完了です。あとは実測 tok/sec を「Strix Halo 実機ベンチマーク」と突き合わせ、自分の機体が想定どおりの速度かを確認してください。
つまずきポイント早見表
| 症状 | 原因 | 対処 |
|---|---|---|
| GPU メモリが 16GB しか見えない | BIOS UMA 小 + VGM 無効(Windows) | AMD Software で VGM を有効化・最大に |
| モデルが CPU にあふれる | offload レイヤー数不足 | ランタイムで全レイヤー GPU 指定 |
| ROCm を入れたのに遅い | gfx1151 で ROCm が最適化不足 | Vulkan(RADV)に切り替えて比較 |
| Linux で GTT が広がらない | ttm.pages_limit 未設定 | amdgpu.gttsize と併せて設定 |
| 70B がロードできない | 量子化が重い(Q8/FP16) | Q4_K_M に落とす(品質劣化は小さい) |
まとめ:OS で割り当て方法を変えるのが鍵
- Strix Halo の VRAM は 「固定」ではなく「Unified Memory からの割り当て」。OS に合った方法を選ぶ
- Windows:BIOS UMA を大きめ → AMD Software の VGM で最大 96GB に振る
- Linux:BIOS UMA は小さく → カーネルの
amdgpu.gttsize(GTT) で動的確保 - バックエンドは gfx1151 では Vulkan(RADV)が速くセットアップも簡単。ROCm は Lemonade SDK の対応ビルドで
- 「70B Q4_K_M が全レイヤー GPU offload」を確認できればセットアップ完了
Strix Halo は「買ってから動かすまで」のひと山さえ越えれば、30〜50 万円で 70B クラスを手元で回せる稀有な x86 マシンです。最初は Vulkan で素直に動かし、設定値は OS に合わせて選ぶ。これが詰まらないための最短ルートです。
入手先・関連商品
当サイトは Amazon.co.jp アソシエイト・プログラムに参加予定です。下記リンク経由で購入された場合、紹介料を受け取ることがあります。読者の負担は増えません。リンクは記事評価とは独立しており、編集判断には影響しません。
Strix Halo(Ryzen AI MAX+ 395)搭載機
- GMKtec EVO-X2 Ryzen AI MAX+ 395 を Amazon.co.jp で見る:128GB 構成が選べるミニPC、本記事の VGM/GTT 設定が効く本命機
- Framework Desktop Ryzen AI MAX を Amazon.co.jp で見る:AI Memory Reservation など設定メニューが分かりやすい
- ASUS ROG Flow Z13 Ryzen AI MAX を Amazon.co.jp で見る:モバイル運用したい人向けのタブレット型 Strix Halo
あなたに合うPCを診断する
用途や予算をもう少し細かく入力すると、3つの候補構成を提案します。
→ 診断スタート
関連記事
- Ryzen AI MAX+ 395(Strix Halo)ローカルLLM 実機ベンチマーク 2026年版:設定後に出るべき実測 tok/sec の答え合わせに
- Strix Halo ミニPC 比較 2026年版:そもそもどの機種を買うか
- AMD Strix Halo の Unified Memory とは:なぜ iGPU で 70B が動くのか、構造から理解する