デスクトップ ベンチマーク

Ryzen AI MAX+ 395(Strix Halo)ローカルLLM 推論ベンチマーク 2026年版:70B / 120B を 96GB VRAM 割当で動かす実測 tok/sec

AMD Ryzen AI MAX+ 395(Strix Halo)で Llama 3.3 70B / 120B クラスのローカルLLM はどこまで動くのか。BD395i MAX / EVO-X2 / MS-S1 Max 系で 96GB VRAM 割当時の token/sec、prompt processing、消費電力を、RTX 5090 / Mac Studio M3 Ultra と帯域差込みで 2026 年最新データを横断集約します。

  • #Strix Halo
  • #Ryzen AI MAX+ 395
  • #ローカルLLM
  • #BD395i MAX
  • #MINISFORUM
  • #Llama 3.3 70B
  • #llama.cpp
  • #ROCm

本記事は Amazon.co.jp および各販売店のアフィリエイトリンクを含む場合があります。推奨は性能・コスパ・実機ベンチマーク基準で編集判断しており、提供記事は受け付けていません。詳細は プライバシーポリシー をご覧ください。

Strix Halo ローカルLLM ベンチマーク 2026:BD395i MAX / EVO-X2 / MS-S1 Max の 70B Q4 tok/sec と Mac M3 Ultra / RTX 5090 帯域比較

結論:Ryzen AI MAX+ 395(Strix Halo)+ 96GB VRAM 割当で Llama 3.3 70B Q4_K_M は 5〜8 tok/sec、Q8 は 3〜5 tok/sec が現実線です。速度は RTX 5090 の 1/4〜1/6、Mac Studio M3 Ultra の半分。ただし「70B / 120B が単体でロードできて、システム消費電力 130W 前後で動く」という事実は Mac Studio M3 Ultra と Strix Halo にしかない独自性です。速さを最優先するなら 5090、容量と省電力を取るなら Strix Halo、両取りなら Mac、という三択になります。

Ryzen AI MAX+ 395(コードネーム Strix Halo)は、iGPU に最大 96GB を VRAM として割り当てられる初の x86 SoC です。CES 2026 で MINISFORUM BD395i MAX / MS-S1 Max / GMKtec EVO-X2 が一斉発表されてから半年、ローカル LLM 用途での実測値が出揃いつつあります。本記事では公開ベンチと国内外コミュニティの実測報告を横断集約し、Strix Halo で「実際に何 tok/sec 出るのか」を整理します。

iris-lab の自前実測ではなく公開実測の集約ベースである点は先に明示しておきます。出典は Level1Techs Forum、Framework Community、Hardware Corner、Reddit r/LocalLLaMA、Phoronix の Strix Halo レビュー記事群です。続編で実機を入手次第、自前実測を追記する前提で読んでください。

ハードウェア前提:256GB/s 帯域、96GB VRAM 割当の構造

Strix Halo の LLM 推論性能を語る前に、ハードウェア仕様を 1 枚に集約します。

項目Ryzen AI MAX+ 395(Strix Halo)
CPUZen 5、16 コア 32 スレッド
GPURadeon 8060S、40 CU、RDNA 3.5
NPUXDNA 2、50 TOPS
メモリ規格LPDDR5X-8000、256-bit 幅
メモリ容量最大 128GB(オンボード固定)
iGPU VRAM 割当BIOS 設定で最大 96GB
メモリ帯域約 256 GB/s
TDP55〜120W(モード可変)
推奨 PSU280〜330W AC アダプタ

LLM 推論はメモリ帯域律速のワークロードなので、ここで効くのは 256 GB/s という帯域値です。比較対象を並べます。

GPU / SoC帯域利用可能メモリ帯域比
RTX 50901,792 GB/s(GDDR7)32GB7.0x
Mac Studio M3 Ultra819 GB/s(LPDDR5X)最大 512GB Unified3.2x
Ryzen AI MAX+ 395256 GB/s(LPDDR5X)最大 96GB を VRAM1.0x(基準)
MacBook Pro M4 Max546 GB/s最大 128GB Unified2.1x

帯域だけで見れば Strix Halo は RTX 5090 の 1/7 にすぎません。一方で容量は 3 倍。「容量で勝つが速度で負ける」 という構造は Mac Studio と同じで、Strix Halo は x86/Linux 環境で Mac Studio 的な立ち位置を取れる初のチップ、と捉えるのが正しい理解です。

Strix Halo のアーキテクチャ詳細と Mac Unified Memory との対比は「Apple Silicon の Unified Memory と NVIDIA VRAM、ローカルLLM では何が違うのか 2026年版」で扱っています。

計測条件:再現性のために必ず明示すべき項目

Strix Halo のベンチ数値は 条件次第で 2〜3 倍変わります。公開数値を読むときに必ずチェックすべき項目を先に挙げます。

  1. OS / バックエンド:Linux + ROCm が現状の最速、Linux + Vulkan が次点、Windows + Vulkan は参考値。本記事は Linux + Vulkan(llama.cpp)を主軸データに採用しています
  2. iGPU メモリ割当:BIOS の UMA Frame Buffer Size を 48GB / 64GB / 80GB / 96GB のどれにしているか。70B Q4_K_M は 48GB でもギリギリ動きますが、コンテキスト 8K を超えると 64GB 以上が安全圏
  3. 量子化方式:Q4_K_M / Q4_0 / Q8_0 / IQ4_XS で速度が違う。Q4_K_M を標準としますが、ベンチ報告に「Q4」とだけ書かれているものは内訳確認が必要
  4. TDP 設定:Strix Halo は 55W / 80W / 120W のモード可変。120W 設定でないとフル性能が出ません
  5. token generation と prompt processing の混同:Level1Techs などで「500-800 tok/sec」と書かれた数値は prompt processing(pp)の値で、token generation(tg)の体感速度とは別物です

特に 5 番目の混同は事故が多いです。本記事は token generation(tg)= 生成速度 を主軸とし、prompt processing(pp)は別カラムで扱います。

Llama 3.3 70B 実測 tok/sec:Strix Halo / RTX 5090 / M3 Ultra 横並び

公開ベンチで報告されているレンジを 1 枚に集約します。短文プロンプト(〜2K context)、Q4_K_M、llama.cpp / Ollama 系での値です。

機材tg tok/sec(Q4_K_M)tg tok/sec(Q8)pp512 tok/sec
RTX 5090(32GB GDDR7)25〜35✗ VRAM 不足1500〜2500
RTX PRO 6000 Blackwell(96GB)28〜3814〜201800〜2800
Mac Studio M3 Ultra 192GB12〜188〜12400〜700
Mac Studio M3 Ultra 512GB12〜188〜12400〜700
BD395i MAX / MS-S1 Max(Strix Halo、Linux+Vulkan)5〜83〜5300〜500
Strix Halo(Linux + ROCm 最適化済み)6〜104〜6400〜600

数値の読み方として、Strix Halo は 「Q4_K_M で 5〜10 tok/sec」が現実線 です。Mac Studio M3 Ultra(12〜18 tok/sec)の半分以下、RTX 5090(25〜35 tok/sec)の 1/4〜1/6 です。

ただし注目すべきは Q8 でも 3〜5 tok/sec で動く こと。RTX 5090 では 70B Q8 は VRAM が物理的に乗らないため、Strix Halo は「70B Q8 を 1 機で動かせる選択肢」という立ち位置になります。

120B クラスでの挙動:Mixtral 8x22B / Llama 3.1 405B 量子化

Strix Halo の 96GB VRAM 割当は、120B 級モデル(Mixtral 8x22B = 141B MoE、DeepSeek-V3 671B MoE の量子化版など)も視野に入る容量です。

モデルサイズ目安Strix Halo tg tok/secコメント
Llama 3.1 8B Q4_K_M約 4.6GB30〜45帯域支配。小型モデルでは Strix Halo でも実用速度
Llama 3.3 70B Q4_K_M約 40〜43GB5〜8主力ライン
Llama 3.3 70B Q8約 70GB3〜596GB 割当で動く
Mixtral 8x22B Q4_K_M約 80GB8〜12(MoE 効果)活性化パラメータ 39B なので速い
DeepSeek-V3 Q4_K_M約 380GB✗ 容量不足96GB に乗らない

MoE モデル(Mixtral 8x22B)は 活性化パラメータが少ないため、141B の総容量を持ちながら推論速度は 70B より速いという逆転が起きます。Strix Halo で 8〜12 tok/sec 出るのは MoE 構造のおかげです。

DeepSeek-V3 / Llama 3.1 405B のような 300GB 超のモデルは 96GB に収まらないため、Strix Halo では動きません。ここは Mac Studio M3 Ultra 512GB だけが対応できる領域です。

消費電力:「120W で 70B が動く」は本当か

Strix Halo の魅力は速度ではなく 省電力性 です。実測値で確認します。

機材アイドル70B 推論中(システム)dGPU 単体時
RTX 5090 + Ryzen 9 9950X3D80〜100W600〜700W575W(GPU TGP)
Mac Studio M3 Ultra20〜30W140〜180W-
BD395i MAX(Strix Halo)15〜25W120〜150W-

Strix Halo は 70B 推論を行いながらシステム全体で 120〜150W。RTX 5090 構成(600〜700W)の約 1/5 です。Mac Studio M3 Ultra と同水準で、ファンレスに近い静音性が実現できます。

「24 時間 LLM を回しっぱなしにする」ような用途では、電気代の差が露骨に効きます。日本の電力料金(30 円 /kWh 換算)で 1 日 24 時間運用した場合:

  • RTX 5090 構成(平均 500W 想定):360 円 / 日 = 10,800 円 / 月
  • Strix Halo 構成(平均 130W 想定):93 円 / 日 = 2,800 円 / 月
  • Mac Studio M3 Ultra(平均 160W 想定):115 円 / 日 = 3,450 円 / 月

GPU 価格差以外に 月 7,000〜8,000 円の電気代差 が発生します。3 年で 25 万円。Strix Halo / Mac の TCO 優位性はここに集約されます。

バックエンド別の差:ROCm / Vulkan / Windows

同じ Strix Halo でも、バックエンドで tok/sec が大きく変わります。

構成tg tok/sec(70B Q4_K_M)補足
Linux + ROCm(最適化済み)6〜102026 年 Q2 時点での最速、ただしセットアップ難度高
Linux + Vulkan(llama.cpp 標準)5〜8安定動作、セットアップ容易、本記事の主軸
Windows + Vulkan4〜6ドライバ次第で不安定、推奨しない
Windows + DirectML3〜5最も遅い、選ぶ理由なし

ROCm は AMD 公式の CUDA 相当 API ですが、Strix Halo(RDNA 3.5 iGPU)への正式対応は 2026 年 Q1 にようやく整い始めたところで、セットアップで詰まる事例が多数報告されています。「動くまでに半日〜1 日かかる」のが現実 です。

Vulkan バックエンドは llama.cpp 標準で、Ubuntu 24.04 + Mesa ドライバの組み合わせで素直に動きます。Strix Halo を「とりあえず動かす」なら Linux + Vulkan が最短ルートです。

モデルロード時間とコンテキスト長の影響

実用時に効く 2 つの数値も押さえておきます。

モデルロード時間(70B Q4_K_M、約 40GB)

  • RTX 5090:SSD → VRAM 約 5〜8 秒(PCIe Gen5 x16 経由)
  • Mac Studio M3 Ultra:SSD → Unified Memory 約 4〜7 秒
  • Strix Halo:SSD → 共有メモリ 約 6〜10 秒

Strix Halo は NVIDIA と違って PCIe コピーが存在しない(CPU と GPU で同じメモリプール)ため、ロード後の応答開始は素直です。

コンテキスト長と速度低下

短文プロンプト基準のベンチ値から、長文ではどの程度落ちるか:

コンテキスト速度の目安(対 4K 比)
4K100%(基準)
32K50〜60%
128K25〜35%(VRAM 割当 80GB+ が前提)

Strix Halo は帯域が狭いぶん、KV キャッシュが膨らむ長文で速度が落ちやすい傾向があります。128K コンテキストで本気で運用するなら、現状は Mac Studio M3 Ultra のほうが向いています。

「動く」と「速い」は別の話:用途別の現実解

数値が出揃ったところで、用途別の判断軸を整理します。

用途現実解
70B Q4 を最速で回したいRTX 5090(25〜35 tok/sec)
70B Q8 を 1 機で動かしたいRTX PRO 6000 / Mac Studio M3 Ultra / Strix Halo
70B / 120B を省電力で 24h 回したいStrix Halo(120W、3,000 円 / 月)
128K 巨大コンテキストMac Studio M3 Ultra 192GB+
300GB 超のモデル(DeepSeek-V3)Mac Studio M3 Ultra 512GB
法人 API 代替・並列リクエストRTX PRO 6000 + vLLM

Strix Halo の独自ポジションは 「70B / 120B が動く + システム 130W で済む + x86/Linux 開発環境」 の 3 点セットです。Mac Studio で Linux ネイティブ環境が必要な開発者にとって、Strix Halo は初めて選べる x86 の選択肢になります。

MINISFORUM 公式サイトを見る

Strix Halo を買うべきでないケース

逆に Strix Halo を選ぶべきでない用途も明確です。

  1. 推論速度を最優先:5〜10 tok/sec が体感で遅いなら RTX 5090 にする。ChatGPT 並みの応答(20〜30 tok/sec)を求めるなら帯域差は埋まらない
  2. 学習・ファインチューニング:ROCm の学習ワークフローはまだ未成熟。学習を視野に入れるなら RTX 5090 / PRO 6000 + CUDA
  3. 頻繁な GPU 換装:Strix Halo は iGPU 固定。BD395i MAX なら PCIe x16 スロットで外付け GPU 追加は可能ですが、ハイブリッド構成の最適化は手間
  4. 128K context のフル運用:帯域不足で速度が大幅低下。Mac Studio M3 Ultra のほうが安定

これらに当てはまるなら、Strix Halo より素直に RTX 5090 か Mac Studio を選んだほうが幸せです。

まとめ:Strix Halo は「Linux で 70B が動く 130W 機」

Strix Halo の本質を 1 行で言うなら 「Linux ネイティブで 70B が動く 130W のミニPC SoC」 です。RTX 5090 のスピードも、Mac Studio M3 Ultra の超巨大モデル対応もありませんが、その代わり省電力・静音・x86 開発環境という独自軸を持ちます。

実機の入手性も 2026 年 5 月時点では BD395i MAX / MS-S1 Max / EVO-X2 が出揃い、価格は 30〜40 万円帯。Mac Studio M3 Ultra(80〜95 万円)の半額以下で 96GB VRAM 級のローカル LLM 環境が組めるのは、コスト面でも明確な優位性です。

ミニPC として Strix Halo を含めた全体像は「ミニPC / SFF(小型)PC 選び方ガイド 2026年版:Strix Halo / Ryzen AI MAX+ 395 でローカルLLM が動く時代」で扱っています。NVIDIA / Mac 側の Llama 3.3 70B ベンチ詳細は「Llama 3.3 70B GPU別トークン/秒 2026年版(5090 / PRO 6000 / Mac)」と「Mac Studio M3 Ultra vs RTX 5090 ローカルLLM ベンチマーク 2026年版」を併読すると、3 軸(NVIDIA / Mac / Strix Halo)の立体像が揃います。


あなたに合うPCを診断する

用途や予算をもう少し細かく入力すると、3つの候補構成を提案します。

診断スタート

関連記事