Ryzen AI MAX+ 395 vs Mac Studio M4 Max ローカルLLM 実測対決 2026年版:同128GB・同価格帯で 70B Q4 の tok/sec とプロンプト処理・消費電力を比べる
同じ128GB Unified Memory、近い価格帯の Ryzen AI MAX+ 395 と Mac Studio M4 Max。ローカルLLMではどちらが速いのか。70B Q4 のトークン生成速度・プロンプト処理時間・消費電力・動かせるモデルサイズを実測ベースで対決させ、AI開発機としての選び方を示します。
- #Ryzen AI MAX+ 395
- #Strix Halo
- #Mac Studio
- #M4 Max
- #ローカルLLM
- #70B
- #Unified Memory
- #ベンチマーク
本記事は Amazon.co.jp および各販売店のアフィリエイトリンクを含む場合があります。推奨は性能・コスパ・実機ベンチマーク基準で編集判断しており、提供記事は受け付けていません。詳細は プライバシーポリシー をご覧ください。

結論:70BクラスのローカルLLMでトークン生成速度を取るなら Mac Studio M4 Max が優位です。同じ128GB Unified Memory でも、メモリ帯域が M4 Max 約546GB/s に対し Ryzen AI MAX+ 395 は約215GB/s と2.4倍の差があり、生成速度はこの帯域差にほぼ比例します。実測レンジでは70B Q4で Mac が20〜25%速い。ただし AMD は価格(128GB構成で2〜3割安いことがある)・x86 Windows/Linux ネイティブ・ゲーミング兼用という独自の強みを持ちます。「速さと静音性ならMac、コストと汎用性ならAMD」が住み分けです。
128GB の Unified Memory を積んだコンパクトなマシンで、70B クラスのローカルLLMを動かしたい。この要件で2026年に現実的な選択肢は2つです。Apple の Mac Studio M4 Max と、AMD Ryzen AI MAX+ 395(Strix Halo)を積んだミニPC。どちらも「大容量メモリをGPUと共有し、巨大モデルを1機に載せる」という同じコンセプトで、価格帯も重なります。
では、実際に動かすとどちらが速いのか。私はこの記事で、70B Q4 のトークン生成速度・プロンプト処理時間・消費電力・動くモデルの上限・価格・エコシステムの6軸で、この2台を正面から対決させます。先に断っておくと、本記事の数値は現時点で iris-lab の自前実測ではなく、公開ベンチと海外コミュニティの実測報告を出典付きで集約したものです。実機での再現計測は入手次第このページに追記します。誇張した数字は載せません。
スペック前提:同じ128GB、違う帯域
まず2台の素性を1枚に並べます。ここで効くのは容量ではなくメモリ帯域です。
| 項目 | Ryzen AI MAX+ 395(Strix Halo) | Mac Studio M4 Max |
|---|---|---|
| CPU | Zen 5、16コア32スレッド | 16コア(性能12+効率4) |
| GPU | Radeon 8060S、40 CU、RDNA 3.5 | 40コアGPU |
| NPU | XDNA 2、50 TOPS超 | 16コアNeural Engine |
| メモリ | 最大128GB LPDDR5X(Unified) | 最大128GB(Unified) |
| メモリ帯域 | 約215 GB/s | 約546 GB/s |
| 帯域比 | 1.0x(基準) | 約2.5x |
| OS | Windows / Linux | macOS |
NPU の TOPS や GPU の理論演算性能だけ見ると、Strix Halo は決して見劣りしません。ところがローカルLLMのトークン生成では、これらの数字はほとんど効きません。効くのはメモリ帯域です。理由はシンプルで、1トークン生成するたびにモデルの全重みをメモリから読み出すから。読み出し速度=メモリ帯域が、生成速度の天井になります。
この仕組みは「メモリ帯域幅(GB/s)がローカルLLMの tok/sec を決める仕組み 2026年版」で詳しく解説しています。「TOPSが高いのに遅いのはなぜ?」という疑問は、ここを読むと氷解します。
対決1:70B Q4 トークン生成速度(tok/sec)
本命の数字から。70Bクラス(DeepSeek R1 Distill 70B など、Q4量子化)の単発生成での実測レンジです。
| 機材 | 70B Q4 生成 tok/sec(単発) | 出典系統 |
|---|---|---|
| Mac Studio M4 Max 128GB | 約6.3 tok/s | 海外コミュニティ実測(llama.cpp / MLX) |
| Ryzen AI MAX+ 395 128GB | 約5.0 tok/s | 海外コミュニティ実測(llama.cpp Vulkan / ROCm) |
差は約20〜25%。帯域差が2.5倍あるわりに差が「20〜25%」に留まるのは、70Bが両者にとって重い負荷で、帯域以外の要因(量子化方式、KVキャッシュ、ソフトウェア最適化の成熟度)も絡むからです。とはいえ、体感として「6.3 tok/s」と「5.0 tok/s」は、長文を生成させたときの待ち時間にじわじわ効きます。Mac のほうが一歩速い、という序列は動きません。
数字としてはどちらも「ChatGPT並みの即レス(20〜30 tok/s)には遠い」点も正直に書いておきます。70Bをコンパクト機でローカル運用するというのは、速度ではなく「自前で・オフラインで・大きいモデルを動かせる」ことに価値がある選択です。
対決2:並列・バッチ処理時のスループット
単発ではなく、複数リクエストを並列で投げたときの合計スループット(バッチ処理、vLLM/MLX系の並列推論など)では差が開きます。
| 機材 | 並列時の合計スループット(目安) |
|---|---|
| Mac Studio M4 Max | 〜81 tok/s 帯 |
| Ryzen AI MAX+ 395 | 〜61 tok/s 帯 |
並列度を上げると、帯域に余裕のある Mac のほうが頭打ちが遅く、合計スループットの上限が高くなります。「自分用エージェントを複数同時に走らせる」「社内の小規模API代替にする」といった使い方では、この差が効いてきます。逆に「自分1人が対話で使うだけ」なら、単発の tok/s 差(前項)のほうが体感に直結します。
対決3:プロンプト処理(prefill)時間
トークン生成(decode)とは別に、入力プロンプトを最初に読み込む処理(prefill / prompt processing)があります。長いコンテキストを投げたときの「最初の1文字が出るまでの待ち時間」を決める部分です。
prefill は decode と違って演算律速の側面が強く、GPU/NPU構成の差が出やすい領域です。ここは構成・バックエンド・コンテキスト長で大きく振れるため、本記事では「両者とも長文プロンプトでは数秒〜十数秒の待ちが発生し、Strix Halo は ROCm 最適化時に prefill が改善する報告がある」という定性的な整理に留めます。正確な比較は実機計測が必要なため、再現データが取れ次第このセクションに数値を追記します。ここで適当な数字を並べるのは、読者にとって有害なので避けます。
対決4:消費電力と効率(tok/W)
省電力性は両者とも優秀ですが、傾向が違います。
| 機材 | アイドル | 70B 推論中(システム) |
|---|---|---|
| Mac Studio M4 Max | 約20〜30W | 約120〜160W |
| Ryzen AI MAX+ 395 ミニ | 約15〜25W | 約120〜150W |
どちらも70B推論を150W前後で回せる省電力機です。RTX 5090 デスクトップ(推論中600〜700W)と比べれば、両者とも1/4〜1/5。「24時間モデルを回しっぱなしにする」用途では、この2台はどちらを選んでも電気代で勝てます。
効率(tok/W、消費電力あたりの生成速度)で見ると、生成が速いぶん Mac M4 Max がわずかに有利ですが、実用上は誤差の範囲です。静音性については、Mac Studio はほぼ無音、Strix Halo ミニは筐体次第(140W維持のモデルはファンが回る)という差があります。
対決5:動くモデルの上限
128GB という同じ容量なので、動かせるモデルの上限はほぼ並びます。
| モデル規模 | Mac Studio M4 Max 128GB | Ryzen AI MAX+ 395 128GB |
|---|---|---|
| 70B Q4 | ◎ 余裕 | ◎ 余裕 |
| 70B Q8 | ○ 動く | ○ 動く(96GB割当) |
| 120B級 MoE(Mixtral 8x22B等) | ○ 動く | ○ 動く |
| 300GB超(DeepSeek-V3 フル) | ✗ 不可 | ✗ 不可 |
300GB超の超巨大モデルを1機に載せたいなら、これは128GB機の領分ではなく、Mac Studio M3 Ultra(最大512GB)の出番です。M3 Ultra との比較は「Mac Studio でローカルLLM を動かす完全ガイド 2026年版」で容量別に整理しています。
対決6:価格とエコシステム(AMDの逆襲ポイント)
ここまで速度では Mac が優位でしたが、価格とエコシステムで AMD が反撃します。
| 軸 | Mac Studio M4 Max 128GB | Ryzen AI MAX+ 395 128GB ミニ |
|---|---|---|
| 価格目安(円) | 約55〜65万円 | 約30〜51万円(機種差大) |
| OS | macOS | Windows / Linux ネイティブ |
| CPU互換 | Apple Silicon(ARM) | x86_64 |
| ゲーミング兼用 | △(限定的) | ○(Radeon 8060S) |
| 開発環境 | Metal / MLX / Apple系 | CUDA以外のx86開発全般 |
価格は Strix Halo ミニ、特に Beelink GTR9 Pro 128GB(約30万円)のような攻めた機種を選べば、Mac Studio M4 Max 128GB(約55〜65万円)の半額近くになります。さらに x86 の Windows/Linux ネイティブで動くので、既存のx86資産・Dockerイメージ・ゲーム・一般アプリがそのまま動きます。Mac に乗り換えると発生する「ARM対応していないツールの互換問題」がありません。
「LLM以外にもゲームをしたい」「Linuxで開発したい」「とにかく安く128GBのLLM機が欲しい」のどれかに当てはまるなら、速度で多少譲っても Strix Halo を選ぶ合理性は十分あります。Strix Halo ミニPCの機種選びは「Ryzen AI MAX+ 395(Strix Halo)ミニPC 機種比較 2026年版」で4機種を横並びにしています。
総合判定:あなたはどちらを買うべきか
6軸を踏まえて言い切ります。
| あなたの優先事項 | 選ぶべき |
|---|---|
| 70Bの生成速度・静音・即レス体感 | Mac Studio M4 Max |
| 並列推論・小規模API代替の上限 | Mac Studio M4 Max |
| とにかく安く128GBのLLM機 | Ryzen AI MAX+ 395 ミニ |
| Windows/Linux ネイティブ・x86互換 | Ryzen AI MAX+ 395 ミニ |
| LLM+ゲーム+一般用途を1台で | Ryzen AI MAX+ 395 ミニ |
| macOS/Apple系開発環境が前提 | Mac Studio M4 Max |
私の総括は「速度と静かさに金を払えるなら Mac、汎用性とコストを取るなら AMD」。同じ128GBでも、この2台は性格がはっきり違います。スペック表の容量だけ見て「同じようなもの」と判断すると、買ってから帯域差にも価格差にも驚くことになります。
Strix Halo 単機の詳しい実測値は「Ryzen AI MAX+ 395(Strix Halo)ローカルLLM 推論ベンチマーク 2026年版」に、Mac での運用ノウハウは「Mac Studio でローカルLLM を動かす完全ガイド 2026年版」にまとめています。
入手先・関連商品
当サイトは Amazon.co.jp アソシエイト・プログラムに参加予定です。下記リンク経由で購入された場合、紹介料を受け取ることがあります。読者の負担は増えません。リンクは記事評価とは独立しており、編集判断には影響しません。
Apple 側
AMD(Strix Halo)側
- Beelink GTR9 Pro Ryzen AI MAX+ 395 を Amazon.co.jp で見る
- GMKtec EVO-X2 Ryzen AI MAX+ 395 を Amazon.co.jp で見る
あなたに合うPCを診断する
用途や予算をもう少し細かく入力すると、3つの候補構成を提案します。
→ 診断スタート