デスクトップ ガイド

Ryzen AI MAX+ 395(Strix Halo)VRAM割り当て・初期セットアップ完全ガイド 2026年版:BIOS UMA / GTT / ROCm vs Vulkan で 96GB を LLM に割り当てる

Strix Halo(Ryzen AI MAX+ 395)で 70B モデルを動かすための VRAM割り当て手順を、Windows の AMD可変グラフィックスメモリと Linux の GTT(amdgpu.gttsize)両対応で解説。BIOS の UMA Frame Buffer 設定、ROCm と Vulkan の速度差、96GB割当の実値まで、機種を買った後に詰まる初期設定を一本化します。

  • #Strix Halo
  • #Ryzen AI MAX+ 395
  • #VRAM割り当て
  • #UMA Frame Buffer
  • #amdgpu.gttsize
  • #ROCm
  • #Vulkan
  • #ローカルLLM
  • #GMKtec EVO-X2
  • #BIOS設定

本記事は Amazon.co.jp および各販売店のアフィリエイトリンクを含む場合があります。推奨は性能・コスパ・実機ベンチマーク基準で編集判断しており、提供記事は受け付けていません。詳細は プライバシーポリシー をご覧ください。

Strix Halo VRAM割り当てセットアップ 2026:BIOS UMA / GTT / ROCm vs Vulkan で 96GB を LLM に割り当てる手順図

結論:Strix Halo(Ryzen AI MAX+ 395)で 70B を動かす鍵は「OS に合わせた VRAM 割り当て方法を選ぶこと」です。Windows なら BIOS の UMA Frame Buffer を大きめに取り、AMD Software の可変グラフィックスメモリ(VGM)で最大 96GB を GPU に振る。Linux なら逆に BIOS の UMA を小さく保ち、カーネルパラメータ amdgpu.gttsize で GTT 共有プールに任せる方が柔軟です。推論バックエンドは、現状 gfx1151 では Vulkan(RADV)が ROCm より速くセットアップも簡単なので、まず Vulkan で動かしてから ROCm を試すのが最短ルートです。

GMKtec EVO-X2、Framework Desktop、ASUS ROG Flow Z13 など Ryzen AI MAX+ 395(Strix Halo)搭載機が 2026 年に出揃い、「30〜50 万円で 70B クラスを動かせる x86 マシン」が現実になりました。ところが実機が届いた後、「VRAM をどう 96GB に割り当てるのか」「BIOS のどこを触ればいいのか」「ROCm を入れたのに遅い」といった買った後の初期設定で詰まる人が続出しています。

この記事は、機種比較やベンチマークのその先、**「届いた Strix Halo 機で実際に LLM を動かすまで」**に絞った手順ガイドです。実機 tok/sec の数字は「Ryzen AI MAX+ 395(Strix Halo)ローカルLLM 実機ベンチマーク 2026年版」に、機種選びは「Strix Halo ミニPC 比較 2026年版」に譲り、ここでは「動かすまで」に集中します。

まず全体像:Strix Halo の VRAM は「固定」ではなく「割り当て」

通常の dGPU は VRAM の量が物理的に固定です。RTX 5090 なら 32GB、それ以上は載りません。一方 Strix Halo は Unified Memory(最大 128GB)から GPU 用に切り出す方式なので、「どれだけ VRAM 化するか」を自分で決める必要があります。ここが初見で混乱するポイントです。

この「切り出し」には 3 つのレイヤーがあります。

レイヤー何を決めるか設定場所
BIOS(UMA Frame Buffer)GPU 専用に固定確保する量BIOS / UEFI
OS の動的割り当て残りプールから動的に GPU が借りる量Windows: AMD Software / Linux: amdgpu.gttsize
推論ランタイムモデルを GPU に載せる量(レイヤー数)Ollama / llama.cpp / LM Studio

Strix Halo の Unified Memory そのものの構造(256bit LPDDR5X、なぜ iGPU で 70B が動くか)は「AMD Strix Halo の Unified Memory とは」で解説しています。本記事はその上で「実際の割り当てコマンド・設定値」を扱います。

BIOS 設定:UMA Frame Buffer Size の場所

どの機種でも最初に触るのが BIOS の UMA Frame Buffer Size(GPU 専用に固定確保するメモリ量)です。AMD プラットフォームでの一般的なパスは以下です。

Advanced
 └ AMD CBS
    └ NBIO Common Options
       └ GFX Configuration
          └ UMA Frame Buffer Size

機種によってはこの深いパスではなく、簡易メニューが用意されています。

  • Framework Desktop:「AI Memory Reservation」のようなわかりやすい項目が独立して用意されている
  • ASUS ROG Flow Z13 / 一部ミニPC:Advanced 内に簡略化されたグラフィックスメモリ設定がある
  • GMKtec EVO-X2:BIOS の Advanced → AMD CBS 配下にフルパスで存在(簡易メニューは薄め)

設定できる値は機種・BIOS バージョンで異なりますが、おおむね Auto / 512MB / ... / 48GB / 64GB / 96GB のような段階から選びます。ここで決めた量は OS から「通常の RAM」としては見えなくなる点に注意してください。96GB を固定確保すれば、128GB モデルでも OS/CPU が使える RAM は約 32GB になります。

重要:BIOS で固定する量は OS によって方針が真逆

ここが本記事の最重要ポイントです。Windows と Linux で UMA Frame Buffer の取り方が逆になります。

WindowsLinux
BIOS UMA Frame Buffer大きめ(例: 48〜96GB)小さめ(Auto / 4〜8GB)
動的割り当ての主役AMD Software の VGMカーネルの GTT(amdgpu.gttsize
理由VGM は BIOS 確保分を土台に拡張するGTT が動的に確保するため固定は最小で良い

なぜこうなるのかを、それぞれ見ていきます。

Windows:AMD 可変グラフィックスメモリ(VGM)で 96GB

Windows では、BIOS の UMA Frame Buffer に加えて AMD Software(Adrenalin / AMD Software for Ryzen AI)の可変グラフィックスメモリ(Variable Graphics Memory, VGM) を使います。

手順

  1. BIOS で UMA Frame Buffer Size を大きめ(例: 64GB)に設定
  2. Windows 起動後、最新の AMD Software をインストール
  3. AMD Software → パフォーマンス → チューニング(または「グラフィックス」設定)から 可変グラフィックスメモリ を有効化
  4. 割り当て量を「最大(High / 96GB 相当)」に設定して再起動
  5. タスクマネージャー → パフォーマンス → GPU で「専用 GPU メモリ」が大きく表示されることを確認

128GB モデルなら、ここで 最大 96GB を GPU に、残り約 32GB を OS/CPU に という配分になります。70B Q4_K_M(実ファイル約 42GB)はこの 96GB に余裕で収まり、コンテキスト長を伸ばすための KV キャッシュ領域も確保できます。

Windows での確認

OllamaLM Studio でモデルをロードした際、GPU offload が 100%(全レイヤー GPU)になっていれば成功です。LM Studio では「GPU Offload」スライダーを最大に、Ollama では環境変数や Modelfile で全レイヤーを GPU に載せます。

Linux:BIOS は最小、GTT(amdgpu.gttsize)に任せる

Linux(CachyOS / Ubuntu / Fedora 系)では、考え方が変わります。amdgpu ドライバの GTT(Graphics Translation Table) という共有メモリプールが、システム RAM から動的に GPU 用メモリを確保できるため、BIOS の固定 carve-out はむしろ小さく保つ方が柔軟です。

手順

  1. BIOS の UMA Frame Buffer Size は Auto か 4〜8GB と小さく設定
  2. カーネルパラメータで GTT サイズを拡張する

GRUB を使う場合、/etc/default/grubGRUB_CMDLINE_LINUX_DEFAULT に以下を追記します(単位は 4KB ページ数。例は約 120GB 相当)。

amdgpu.gttsize=122880 ttm.pages_limit=33554432
  • amdgpu.gttsize … GTT で GPU が確保できる上限(MiB 指定の環境もあるため、ディストリ/カーネルのドキュメントで単位を確認)
  • ttm.pages_limit … TTM(メモリマネージャ)が扱えるページ上限。GTT を大きく取るならこれも引き上げる

設定後、GRUB を更新して再起動します。

sudo update-grub      # Ubuntu/Debian 系
# または sudo grub-mkconfig -o /boot/grub/grub.cfg (Arch/CachyOS 系)
sudo reboot

Linux での確認

再起動後、GPU が確保できるメモリ量を確認します。

# amdgpu の VRAM / GTT を確認
sudo dmesg | grep -i "amdgpu.*memory"
# あるいは
cat /sys/kernel/debug/dri/0/amdgpu_gtt_mm   # 要 root

GTT が想定どおり拡張されていれば、llama.cpp で全レイヤーを GPU に載せられます。Linux ルートは BIOS で固定枠を取らない分、LLM を回さないときはその RAM を通常用途に使えるのが利点です。CachyOS や Ubuntu のコミュニティでは、この GTT 方式で 96GB 超を LLM に回す実例が共有されています。

ROCm vs Vulkan:まず Vulkan で動かすのが最短

割り当てが終わったら推論バックエンドを選びます。Strix Halo の iGPU は gfx1151(Radeon 8060S, RDNA 3.5)で、ここでのバックエンド選択が体感速度を左右します。

バックエンドセットアップ難度gfx1151 での速度備考
Vulkan(RADV)易(Mesa を入れるだけ)速い傾向llama.cpp の Vulkan ビルドで動く
ROCm(HIP)中〜難(gfx1151 対応が要バージョン選定)Vulkan に劣るケース多行列演算系では伸びる場面も

2026 年前半時点のコミュニティ llama.cpp ベンチでは、gfx1151 では RADV(Mesa の Vulkan ドライバ)が ROCm HIP バックエンドを上回る報告が目立ちます。セットアップも Mesa ドライバを入れて llama.cpp の Vulkan ビルドを使うだけで、ROCm のバージョン地獄を避けられます。

Vulkan ルート(推奨スタート)

  • Linux:Mesa(RADV 含む)は多くのディストリで標準。llama.cpp を -DGGML_VULKAN=ON でビルド、または Vulkan 対応バイナリを使う
  • Windows:AMD ドライバに Vulkan ランタイムが含まれる。llama.cpp / LM Studio の Vulkan バックエンドを選択

ROCm ルート(伸ばしたい人向け)

ROCm を使う場合、gfx1151 は比較的新しい GPU なので 対応バージョンの選定が肝です。安定して動かすなら、AMD がコンシューマ向け Ryzen AI 環境向けに整備している Lemonade SDK の llama.cpp nightly(ROCm 7 系 / gfx1151 対応ビルド)を使うのが現実的です。自前で ROCm をフルビルドするより、対応済みパッケージを使う方が早く確実に動きます。

セットアップの順番としては「① Vulkan で全レイヤー GPU offload を確認 → ② 余力があれば ROCm を試して速い方を採用」が遠回りに見えて最短です。最初から ROCm にこだわると、ドライバの相性で何時間も溶かしがちです。

動作確認:70B が GPU に全部載ったか

最後に、モデルが本当に GPU に載りきっているかを確認します。CPU にあふれていると速度が一桁落ちます。

  • Ollamaollama run llama3.3:70b 後、別ターミナルで ollama ps を実行。PROCESSOR100% GPU なら成功(CPU 表示が混ざるとオフロード不足)
  • llama.cpp:起動ログの offloaded N/N layers to GPU が「全レイヤー」になっているか確認
  • LM Studio:GPU Offload スライダーを最大にし、ロード後の GPU メモリ使用量がモデルサイズ + KV キャッシュ分に達しているか

ここまでで「70B Q4_K_M が iGPU 単体で全レイヤー GPU 動作」が確認できれば、初期セットアップは完了です。あとは実測 tok/sec を「Strix Halo 実機ベンチマーク」と突き合わせ、自分の機体が想定どおりの速度かを確認してください。

つまずきポイント早見表

症状原因対処
GPU メモリが 16GB しか見えないBIOS UMA 小 + VGM 無効(Windows)AMD Software で VGM を有効化・最大に
モデルが CPU にあふれるoffload レイヤー数不足ランタイムで全レイヤー GPU 指定
ROCm を入れたのに遅いgfx1151 で ROCm が最適化不足Vulkan(RADV)に切り替えて比較
Linux で GTT が広がらないttm.pages_limit 未設定amdgpu.gttsize と併せて設定
70B がロードできない量子化が重い(Q8/FP16)Q4_K_M に落とす(品質劣化は小さい)

まとめ:OS で割り当て方法を変えるのが鍵

  • Strix Halo の VRAM は 「固定」ではなく「Unified Memory からの割り当て」。OS に合った方法を選ぶ
  • Windows:BIOS UMA を大きめ → AMD Software の VGM で最大 96GB に振る
  • Linux:BIOS UMA は小さく → カーネルの amdgpu.gttsize(GTT) で動的確保
  • バックエンドは gfx1151 では Vulkan(RADV)が速くセットアップも簡単。ROCm は Lemonade SDK の対応ビルドで
  • 「70B Q4_K_M が全レイヤー GPU offload」を確認できればセットアップ完了

Strix Halo は「買ってから動かすまで」のひと山さえ越えれば、30〜50 万円で 70B クラスを手元で回せる稀有な x86 マシンです。最初は Vulkan で素直に動かし、設定値は OS に合わせて選ぶ。これが詰まらないための最短ルートです。

入手先・関連商品

当サイトは Amazon.co.jp アソシエイト・プログラムに参加予定です。下記リンク経由で購入された場合、紹介料を受け取ることがあります。読者の負担は増えません。リンクは記事評価とは独立しており、編集判断には影響しません。

Strix Halo(Ryzen AI MAX+ 395)搭載機


あなたに合うPCを診断する

用途や予算をもう少し細かく入力すると、3つの候補構成を提案します。

診断スタート

関連記事