Strix Halo（Ryzen AI MAX+ 395）で VRAM はどこまで割り当てられる？

128GB モデルなら最大 96GB を GPU 用 VRAM に割り当てられます。Windows では AMD Software（Adrenalin）の可変グラフィックスメモリ（VGM）、Linux ではカーネルパラメータ amdgpu.gttsize で指定します。70B Q4_K_M（実ファイル約 42GB）は 96GB に余裕で収まり、KV キャッシュやコンテキスト長を伸ばす余地も残ります。

BIOS の UMA Frame Buffer Size は最大にすべき？

Windows では大きめ（48〜96GB相当）に振って VGM と併用しますが、Linux では逆に Auto か 4〜8GB と小さく保ち、GTT（amdgpu.gttsize）で動的に共有プールから確保する方が柔軟です。BIOS で固定 carve-out を大きく取ると、その分は OS から通常 RAM として見えなくなるため、運用 OS で設定方針が変わります。

ROCm と Vulkan、Strix Halo の iGPU ではどちらが速い？

gfx1151（Strix Halo の Radeon 8060S）では、コミュニティの llama.cpp ベンチで RADV（Mesa の Vulkan ドライバ）が ROCm HIP バックエンドを上回るケースが多く報告されています。セットアップも Mesa を入れるだけで容易です。ROCm を使いたい場合は、gfx1151 対応が進んだ Lemonade SDK の llama.cpp nightly（ROCm 7 系）を使うのが現実的です。

Ryzen AI MAX+ 395（Strix Halo）VRAM割り当て・初期セットアップ完全ガイド 2026年版：BIOS UMA / GTT / ROCm vs Vulkan で 96GB を LLM に割り当てる

本記事は Amazon.co.jp および各販売店のアフィリエイトリンクを含む場合があります。推奨は性能・コスパ・実機ベンチマーク基準で編集判断しており、提供記事は受け付けていません。詳細はプライバシーポリシーをご覧ください。

Strix Halo VRAM割り当てセットアップ 2026:BIOS UMA / GTT / ROCm vs Vulkan で 96GB を LLM に割り当てる手順図

結論：Strix Halo（Ryzen AI MAX+ 395）で 70B を動かす鍵は「OS に合わせた VRAM 割り当て方法を選ぶこと」です。Windows なら BIOS の UMA Frame Buffer を大きめに取り、AMD Software の可変グラフィックスメモリ（VGM）で最大 96GB を GPU に振る。Linux なら逆に BIOS の UMA を小さく保ち、カーネルパラメータ amdgpu.gttsize で GTT 共有プールに任せる方が柔軟です。推論バックエンドは、現状 gfx1151 では Vulkan（RADV）が ROCm より速くセットアップも簡単なので、まず Vulkan で動かしてから ROCm を試すのが最短ルートです。

GMKtec EVO-X2、Framework Desktop、ASUS ROG Flow Z13 など Ryzen AI MAX+ 395（Strix Halo）搭載機が 2026 年に出揃い、「30〜50 万円で 70B クラスを動かせる x86 マシン」が現実になりました。ところが実機が届いた後、「VRAM をどう 96GB に割り当てるのか」「BIOS のどこを触ればいいのか」「ROCm を入れたのに遅い」といった買った後の初期設定で詰まる人が続出しています。

この記事は、機種比較やベンチマークのその先、**「届いた Strix Halo 機で実際に LLM を動かすまで」**に絞った手順ガイドです。実機 tok/sec の数字は「Ryzen AI MAX+ 395（Strix Halo）ローカルLLM 実機ベンチマーク 2026年版」に、機種選びは「Strix Halo ミニPC 比較 2026年版」に譲り、ここでは「動かすまで」に集中します。

まず全体像：Strix Halo の VRAM は「固定」ではなく「割り当て」

通常の dGPU は VRAM の量が物理的に固定です。RTX 5090 なら 32GB、それ以上は載りません。一方 Strix Halo は Unified Memory（最大 128GB）から GPU 用に切り出す方式なので、「どれだけ VRAM 化するか」を自分で決める必要があります。ここが初見で混乱するポイントです。

この「切り出し」には 3 つのレイヤーがあります。

レイヤー	何を決めるか	設定場所
BIOS（UMA Frame Buffer）	GPU 専用に固定確保する量	BIOS / UEFI
OS の動的割り当て	残りプールから動的に GPU が借りる量	Windows: AMD Software / Linux: `amdgpu.gttsize`
推論ランタイム	モデルを GPU に載せる量（レイヤー数）	Ollama / llama.cpp / LM Studio

Strix Halo の Unified Memory そのものの構造（256bit LPDDR5X、なぜ iGPU で 70B が動くか）は「AMD Strix Halo の Unified Memory とは」で解説しています。本記事はその上で「実際の割り当てコマンド・設定値」を扱います。

BIOS 設定：UMA Frame Buffer Size の場所

どの機種でも最初に触るのが BIOS の UMA Frame Buffer Size（GPU 専用に固定確保するメモリ量）です。AMD プラットフォームでの一般的なパスは以下です。

Advanced
 └ AMD CBS
    └ NBIO Common Options
       └ GFX Configuration
          └ UMA Frame Buffer Size

機種によってはこの深いパスではなく、簡易メニューが用意されています。

Framework Desktop：「AI Memory Reservation」のようなわかりやすい項目が独立して用意されている
ASUS ROG Flow Z13 / 一部ミニPC：Advanced 内に簡略化されたグラフィックスメモリ設定がある
GMKtec EVO-X2：BIOS の Advanced → AMD CBS 配下にフルパスで存在（簡易メニューは薄め）

設定できる値は機種・BIOS バージョンで異なりますが、おおむね Auto / 512MB / ... / 48GB / 64GB / 96GB のような段階から選びます。ここで決めた量は OS から「通常の RAM」としては見えなくなる点に注意してください。96GB を固定確保すれば、128GB モデルでも OS/CPU が使える RAM は約 32GB になります。

重要：BIOS で固定する量は OS によって方針が真逆

ここが本記事の最重要ポイントです。Windows と Linux で UMA Frame Buffer の取り方が逆になります。

	Windows	Linux
BIOS UMA Frame Buffer	大きめ（例: 48〜96GB）	小さめ（Auto / 4〜8GB）
動的割り当ての主役	AMD Software の VGM	カーネルの GTT（`amdgpu.gttsize`）
理由	VGM は BIOS 確保分を土台に拡張する	GTT が動的に確保するため固定は最小で良い

なぜこうなるのかを、それぞれ見ていきます。

Windows：AMD 可変グラフィックスメモリ（VGM）で 96GB

Windows では、BIOS の UMA Frame Buffer に加えて AMD Software（Adrenalin / AMD Software for Ryzen AI）の可変グラフィックスメモリ（Variable Graphics Memory, VGM） を使います。

手順

BIOS で UMA Frame Buffer Size を大きめ（例: 64GB）に設定
Windows 起動後、最新の AMD Software をインストール
AMD Software → パフォーマンス → チューニング（または「グラフィックス」設定）から 可変グラフィックスメモリ を有効化
割り当て量を「最大（High / 96GB 相当）」に設定して再起動
タスクマネージャー → パフォーマンス → GPU で「専用 GPU メモリ」が大きく表示されることを確認

128GB モデルなら、ここで 最大 96GB を GPU に、残り約 32GB を OS/CPU に という配分になります。70B Q4_K_M（実ファイル約 42GB）はこの 96GB に余裕で収まり、コンテキスト長を伸ばすための KV キャッシュ領域も確保できます。

Windows での確認

Ollama や LM Studio でモデルをロードした際、GPU offload が 100%（全レイヤー GPU）になっていれば成功です。LM Studio では「GPU Offload」スライダーを最大に、Ollama では環境変数や Modelfile で全レイヤーを GPU に載せます。

Linux：BIOS は最小、GTT（amdgpu.gttsize）に任せる

Linux（CachyOS / Ubuntu / Fedora 系）では、考え方が変わります。amdgpu ドライバの GTT（Graphics Translation Table） という共有メモリプールが、システム RAM から動的に GPU 用メモリを確保できるため、BIOS の固定 carve-out はむしろ小さく保つ方が柔軟です。

手順

BIOS の UMA Frame Buffer Size は Auto か 4〜8GB と小さく設定
カーネルパラメータで GTT サイズを拡張する

GRUB を使う場合、/etc/default/grub の GRUB_CMDLINE_LINUX_DEFAULT に以下を追記します（単位は 4KB ページ数。例は約 120GB 相当）。

amdgpu.gttsize=122880 ttm.pages_limit=33554432

amdgpu.gttsize … GTT で GPU が確保できる上限（MiB 指定の環境もあるため、ディストリ／カーネルのドキュメントで単位を確認）
ttm.pages_limit … TTM（メモリマネージャ）が扱えるページ上限。GTT を大きく取るならこれも引き上げる

設定後、GRUB を更新して再起動します。

sudo update-grub      # Ubuntu/Debian 系
# または sudo grub-mkconfig -o /boot/grub/grub.cfg （Arch/CachyOS 系）
sudo reboot

Linux での確認

再起動後、GPU が確保できるメモリ量を確認します。

# amdgpu の VRAM / GTT を確認
sudo dmesg | grep -i "amdgpu.*memory"
# あるいは
cat /sys/kernel/debug/dri/0/amdgpu_gtt_mm   # 要 root

GTT が想定どおり拡張されていれば、llama.cpp で全レイヤーを GPU に載せられます。Linux ルートは BIOS で固定枠を取らない分、LLM を回さないときはその RAM を通常用途に使えるのが利点です。CachyOS や Ubuntu のコミュニティでは、この GTT 方式で 96GB 超を LLM に回す実例が共有されています。

ROCm vs Vulkan：まず Vulkan で動かすのが最短

割り当てが終わったら推論バックエンドを選びます。Strix Halo の iGPU は gfx1151（Radeon 8060S, RDNA 3.5）で、ここでのバックエンド選択が体感速度を左右します。

バックエンド	セットアップ難度	gfx1151 での速度	備考
Vulkan（RADV）	易（Mesa を入れるだけ）	速い傾向	llama.cpp の Vulkan ビルドで動く
ROCm（HIP）	中〜難（gfx1151 対応が要バージョン選定）	Vulkan に劣るケース多	行列演算系では伸びる場面も

2026 年前半時点のコミュニティ llama.cpp ベンチでは、gfx1151 では RADV（Mesa の Vulkan ドライバ）が ROCm HIP バックエンドを上回る報告が目立ちます。セットアップも Mesa ドライバを入れて llama.cpp の Vulkan ビルドを使うだけで、ROCm のバージョン地獄を避けられます。

Vulkan ルート（推奨スタート）

Linux：Mesa（RADV 含む）は多くのディストリで標準。llama.cpp を -DGGML_VULKAN=ON でビルド、または Vulkan 対応バイナリを使う
Windows：AMD ドライバに Vulkan ランタイムが含まれる。llama.cpp / LM Studio の Vulkan バックエンドを選択

ROCm ルート（伸ばしたい人向け）

ROCm を使う場合、gfx1151 は比較的新しい GPU なので 対応バージョンの選定が肝です。安定して動かすなら、AMD がコンシューマ向け Ryzen AI 環境向けに整備している Lemonade SDK の llama.cpp nightly（ROCm 7 系 / gfx1151 対応ビルド）を使うのが現実的です。自前で ROCm をフルビルドするより、対応済みパッケージを使う方が早く確実に動きます。

セットアップの順番としては「① Vulkan で全レイヤー GPU offload を確認 → ② 余力があれば ROCm を試して速い方を採用」が遠回りに見えて最短です。最初から ROCm にこだわると、ドライバの相性で何時間も溶かしがちです。

動作確認：70B が GPU に全部載ったか

最後に、モデルが本当に GPU に載りきっているかを確認します。CPU にあふれていると速度が一桁落ちます。

Ollama：ollama run llama3.3:70b 後、別ターミナルで ollama ps を実行。PROCESSOR が 100% GPU なら成功（CPU 表示が混ざるとオフロード不足）
llama.cpp：起動ログの offloaded N/N layers to GPU が「全レイヤー」になっているか確認
LM Studio：GPU Offload スライダーを最大にし、ロード後の GPU メモリ使用量がモデルサイズ + KV キャッシュ分に達しているか

ここまでで「70B Q4_K_M が iGPU 単体で全レイヤー GPU 動作」が確認できれば、初期セットアップは完了です。あとは実測 tok/sec を「Strix Halo 実機ベンチマーク」と突き合わせ、自分の機体が想定どおりの速度かを確認してください。

つまずきポイント早見表

症状	原因	対処
GPU メモリが 16GB しか見えない	BIOS UMA 小 + VGM 無効（Windows）	AMD Software で VGM を有効化・最大に
モデルが CPU にあふれる	offload レイヤー数不足	ランタイムで全レイヤー GPU 指定
ROCm を入れたのに遅い	gfx1151 で ROCm が最適化不足	Vulkan（RADV）に切り替えて比較
Linux で GTT が広がらない	`ttm.pages_limit` 未設定	`amdgpu.gttsize` と併せて設定
70B がロードできない	量子化が重い（Q8/FP16）	Q4_K_M に落とす（品質劣化は小さい）

まとめ：OS で割り当て方法を変えるのが鍵

Strix Halo の VRAM は 「固定」ではなく「Unified Memory からの割り当て」。OS に合った方法を選ぶ
Windows：BIOS UMA を大きめ → AMD Software の VGM で最大 96GB に振る
Linux：BIOS UMA は小さく → カーネルの amdgpu.gttsize（GTT） で動的確保
バックエンドは gfx1151 では Vulkan（RADV）が速くセットアップも簡単。ROCm は Lemonade SDK の対応ビルドで
「70B Q4_K_M が全レイヤー GPU offload」を確認できればセットアップ完了

Strix Halo は「買ってから動かすまで」のひと山さえ越えれば、30〜50 万円で 70B クラスを手元で回せる稀有な x86 マシンです。最初は Vulkan で素直に動かし、設定値は OS に合わせて選ぶ。これが詰まらないための最短ルートです。

入手先・関連商品

当サイトは Amazon.co.jp アソシエイト・プログラムに参加予定です。下記リンク経由で購入された場合、紹介料を受け取ることがあります。読者の負担は増えません。リンクは記事評価とは独立しており、編集判断には影響しません。

Strix Halo（Ryzen AI MAX+ 395）搭載機

GMKtec EVO-X2 Ryzen AI MAX+ 395 を Amazon.co.jp で見る：128GB 構成が選べるミニPC、本記事の VGM/GTT 設定が効く本命機
Framework Desktop Ryzen AI MAX を Amazon.co.jp で見る：AI Memory Reservation など設定メニューが分かりやすい
ASUS ROG Flow Z13 Ryzen AI MAX を Amazon.co.jp で見る：モバイル運用したい人向けのタブレット型 Strix Halo

あなたに合うPCを診断する

用途や予算をもう少し細かく入力すると、3つの候補構成を提案します。

→ 診断スタート

Ryzen AI MAX+ 395（Strix Halo）ローカルLLM 実機ベンチマーク 2026年版：設定後に出るべき実測 tok/sec の答え合わせに
Strix Halo ミニPC 比較 2026年版：そもそもどの機種を買うか
AMD Strix Halo の Unified Memory とは：なぜ iGPU で 70B が動くのか、構造から理解する