DGX Spark・Strix Halo・Mac Studio、ローカルLLMで一番速いのはどれ？

トークン生成速度（tok/sec）だけで言えば、メモリ帯域が最も広い Mac Studio（M3 Ultra で約800GB/s、M4 Max で約546GB/s）が頭一つ抜けます。DGX Spark（約273GB/s）と Ryzen AI MAX+ 395（約215〜256GB/s）は帯域が近く、生成速度も近接します。ただし DGX Spark はプロンプト処理（prefill）とCUDAエコシステムで優位で、Tom's Hardware のレビューでも総合では Strix Halo を上回ると評価されています。

DGX Spark はなぜ Strix Halo や Mac より高いのに価値があるの？

フルCUDA／TensorRT／NIM が動く点が決定的です。クラウドのデータセンターGPUと同じソフトウェアスタックがデスクトップで動くため、微調整・量子化・推論最適化のコードがそのまま流用でき、本番環境への移植も滑らかです。研究・開発で「将来クラウドGPUに載せる前段」として使うなら、価格差を払う合理性があります。

コスパ重視ならどれを選ぶべき？

純粋なコスパなら Ryzen AI MAX+ 395 のミニPCです。128GB構成で約30〜51万円と3機種で最も安く、x86 Windows/Linux ネイティブでゲームや一般用途にも兼用できます。速度・静音・大容量を最優先するなら Mac Studio、CUDA資産と開発互換なら DGX Spark という住み分けです。

DGX Spark と Ryzen AI MAX+ 395（Strix Halo）はどっちを買うべき？

用途で分かれます。CUDA資産・微調整・クラウド移植の互換性を最優先するなら DGX Spark（約$4,699）。とにかく安く128GBのLLM機が欲しい、x86 Windows/Linux でゲームや一般用途にも兼用したいなら Ryzen AI MAX+ 395 のミニPC（約30〜51万円）です。メモリ帯域は DGX Spark 約273GB/s に対し Strix Halo は約215〜256GB/s とレンジが近く、素のトークン生成速度では大差がつきません。決定的な違いはソフトウェア（DGX SparkはフルCUDA、Strix Halo は ROCm/Vulkan）と価格です。

Ryzen AI MAX+ 395 vs DGX Spark、ローカルLLMの速度はどっちが速い？

トークン生成（decode）はメモリ帯域で決まり、DGX Spark 約273GB/s と Strix Halo 約215〜256GB/s は近いため、素の生成速度では大差がつきません。差が出るのはプロンプト処理（prefill）で、1 PFLOP FP4 と6,144 CUDAコアを持つ DGX Spark が優位です。長文コンテキストやRAGを多用する用途では DGX Spark の方が体感が速くなります。

DGX Spark より Ryzen AI MAX+ 395 の方が安いのに DGX を選ぶ理由は？

フルCUDA／TensorRT／NIM が動く点です。クラウドのデータセンターGPUと同じソフトウェアスタックがデスクトップで動くため、微調整・量子化・推論最適化のコードがそのまま流用でき、本番のクラウドGPUへの移植も滑らかです。長文プロンプトの処理（prefill）も DGX Spark が優位です。Strix Halo は約30〜51万円と安くコスパに優れますが、ROCm/Vulkan のため CUDA 資産はそのまま使えません。

NVIDIA DGX Spark vs Ryzen AI MAX+ 395 vs Mac Studio：128GBクラスのローカルLLM実行機 3択 2026年版

本記事は Amazon.co.jp および各販売店のアフィリエイトリンクを含む場合があります。推奨は性能・コスパ・実機ベンチマーク基準で編集判断しており、提供記事は受け付けていません。詳細はプライバシーポリシーをご覧ください。

NVIDIA DGX Spark vs Ryzen AI MAX+ 395 vs Mac Studio：128GBクラスのローカルLLM実行機3択 2026年版。メモリ帯域・tok/sec・CUDA・価格で比較

結論：速度（tok/sec）を取るなら Mac Studio、CUDA資産・微調整・将来のクラウド移植を取るなら NVIDIA DGX Spark、コスパと汎用性を取るなら Ryzen AI MAX+ 395（Strix Halo）です。3機種とも「128GB前後のメモリをGPUと共有して大きいモデルを1機に載せる」という同じコンセプトですが、決定的に違うのはメモリ帯域（Mac Studio が約546〜800GB/s と圧倒、DGX Spark 約273GB/s・Strix Halo 約215〜256GB/s）とソフトウェアエコシステム（DGX Spark はフルCUDA、Strix Halo は ROCm/Vulkan、Mac は MLX/Metal）の2点です。「自分の用途がどの軸を重視するか」で答えが変わります。

2026年、128GBクラスのローカルLLM実行機がついに3陣営出揃いました。AppleのMac Studio、AMDの Ryzen AI MAX+ 395（Strix Halo）、そして新顔の NVIDIA DGX Spark（GB10 Grace Blackwell）。どれも「大容量のメモリをGPUから直接使い、70Bクラス以上の巨大モデルをデスクトップ1台で動かす」という同じ夢を売っています。

では、自分はどれを買うべきなのか。私はこの記事で、①メモリ帯域、②トークン生成速度（tok/sec）、③プロンプト処理、④動かせるモデル規模、⑤エコシステム、⑥価格・消費電力の6軸で3機種を横並びにします。先に断っておくと、ここで使う数値は各社公称値と海外レビュー・コミュニティ実測を出典付きで集約したものです。iris-lab の自前実測はまだで、誇張した数字は載せません。実機での再現計測は入手次第このページに追記します。

まず3機種の素性を1枚に

項目	NVIDIA DGX Spark（GB10）	Ryzen AI MAX+ 395（Strix Halo）	Mac Studio（M4 Max / M3 Ultra）
プロセッサ	GB10 Grace Blackwell	Zen 5 + Radeon 8060S（RDNA 3.5）	Apple M4 Max / M3 Ultra
CPU	20コア Arm（Cortex-X925×10 + A725×10）	16コア32スレッド x86	16コア / 最大32コア
GPU	Blackwell・6,144 CUDAコア・5th-gen Tensor	Radeon 8060S・40 CU	40コア / 最大80コア
メモリ	128GB LPDDR5X（256-bit）	最大128GB LPDDR5X	最大128GB / 最大512GB
メモリ帯域	約273 GB/s	約215〜256 GB/s	約546 GB/s（M4 Max）/ 約800 GB/s（M3 Ultra）
AI演算	1 PFLOP FP4（sparsity）	XDNA 2 NPU 50 TOPS超	Neural Engine
OS	DGX OS（Ubuntuベース）	Windows / Linux	macOS
エコシステム	フルCUDA / TensorRT / NIM	ROCm / Vulkan	MLX / Metal
価格目安	約$4,399〜5,404（≒70〜85万円）	約30〜51万円	約55〜100万円超

この表で最初に目が行くのはメモリ容量でしょうが、ローカルLLMの体感を決めるのは容量ではなくメモリ帯域です。ここを外すと買ってから後悔します。

軸1：メモリ帯域がtok/secの天井を決める

ローカルLLMのトークン生成では、1トークン出すたびにモデルの全重みをメモリから読み出します。だから読み出し速度＝メモリ帯域が、そのまま生成速度の天井になります。TOPSやCUDAコア数より、まずここを見てください。

機種	メモリ帯域	帯域比（Strix Halo基準）
Ryzen AI MAX+ 395	約215〜256 GB/s	1.0x
NVIDIA DGX Spark	約273 GB/s	約1.1〜1.3x
Mac Studio M4 Max	約546 GB/s	約2.1〜2.5x
Mac Studio M3 Ultra	約800 GB/s	約3.1〜3.7x

DGX Spark と Strix Halo はどちらも256-bit幅のLPDDR5Xで、帯域はほぼ同じレンジです。一方で Mac Studio は M4 Max でも倍以上、M3 Ultra なら3倍以上の帯域を持ちます。純粋な生成速度（tok/sec）の序列は、この帯域の序列にほぼ比例します。

この仕組みは「メモリ帯域幅(GB/s)がローカルLLMの tok/sec を決める仕組み 2026年版」で詳しく解説しています。「DGX Spark は1 PFLOPもあるのに、なぜ Mac に生成速度で負けるの？」という疑問は、ここを読むと氷解します。

軸2：トークン生成速度（tok/sec）の現実

帯域から予想される生成速度の傾向です。70B Q4クラスでの目安レンジを示します。

機種	70B Q4 生成 tok/sec（目安）	備考
Mac Studio M3 Ultra	約18〜25 tok/s	帯域800GB/sで最速帯
Mac Studio M4 Max	約6〜9 tok/s	128GB構成の現実解
NVIDIA DGX Spark	約5〜8 tok/s	帯域273GB/s・FP4最適化で底上げ
Ryzen AI MAX+ 395	約5 tok/s	帯域律速

生成速度だけ見れば、帯域に勝る Mac が優位です。ただし注意点が2つあります。

1つ目。DGX Spark と Strix Halo は帯域が近いため、素のtok/secでは大差がつきません。差が出るのは後述するprefillとエコシステムです。

2つ目。70Bクラスをこのクラスの機材で回すというのは、「20〜30 tok/s の即レス」を買う選択ではありません。「自前で・オフラインで・巨大モデルを動かせる」こと自体に価値がある選択です。速度の即時性が最優先なら、答えはクラウドAPIやGPUサーバーです。128GB機が狙う土俵ではありません。

軸3：プロンプト処理（prefill）はDGX Sparkの隠れた強み

トークン生成（decode）とは別に、入力プロンプトを最初に読み込む処理（prefill / prompt processing）があります。長いコンテキストを投げたときの「最初の1文字が出るまでの待ち時間」を決める部分で、ここで効くのは帯域より演算性能です。

DGX Spark は 1 PFLOP の FP4 演算と6,144基のCUDAコアを持ち、prefillでは3機種の中で頭一つ抜けています。Tom’s Hardware のレビューでも、DGX Spark が総合で Ryzen AI MAX+ 395 を上回ると評価されている主因はここにあります。「長いコードベースや文書を丸ごと投入して質問する」「RAGで大量の文脈を毎回読ませる」といったエージェント的な使い方では、prefillの速さが体感を大きく左右します。

prefillが用途を左右する理由は「ローカルLLM プロンプト処理（prefill）速度 GPU別ベンチマーク 2026年版」で掘り下げています。tok/secだけ見て選ぶと、長文用途で「最初の応答が遅すぎる」と後悔しがちです。

軸4：動かせるモデル規模

容量別に、どこまでのモデルが現実的に載るかを整理します。

モデル規模	DGX Spark 128GB	Strix Halo 128GB	Mac Studio 128GB	Mac Studio M3 Ultra 512GB
70B Q4	◎ 余裕	◎ 余裕	◎ 余裕	◎ 余裕
70B Q8	○ 動く	○（96GB割当）	○ 動く	◎ 余裕
120B級 MoE	○ 動く	○ 動く	○ 動く	◎ 余裕
200B級（量子化）	○（NVIDIA公称・最大200B）	△ ギリギリ	△ ギリギリ	◎ 動く
300GB超フル	✗	✗	✗	○ 動く

128GB勢（DGX Spark / Strix Halo / Mac Studio M4 Max）は、おおむね70B〜120B MoEまでが快適圏です。NVIDIAは DGX Spark で量子化により最大200Bパラメータまでを謳い、2台をConnectX-7で接続すれば405Bクラスにも手が届くとしています。一方、300GB超の超巨大モデルを1機にフルで載せたいなら、これは128GB機の手に余ります。最大512GBを積める Mac Studio M3 Ultra の出番です。

軸5：エコシステムが一番の分かれ目

帯域や容量以上に、長く使ううえで効いてくるのがソフトウェアエコシステムです。

軸	DGX Spark	Strix Halo	Mac Studio
推論スタック	CUDA / TensorRT-LLM / NIM	ROCm / Vulkan / llama.cpp	MLX / Metal / llama.cpp
微調整（fine-tuning）	◎ フルCUDAで最も枯れている	△ ROCm対応が前提	○ MLXで可能・情報量は中
クラウド移植性	◎ データセンターGPUと同一スタック	△	△
ツールの動作実績	◎ 大半がCUDA前提で動く	○ 改善中	○ Apple系で充実
つまずきにくさ	◎	△（ROCmは環境構築が鬼門なことがある）	◎

DGX Spark の最大の価値はここです。クラウドのデータセンターGPUと同じCUDA／TensorRT／NIM がデスクトップで動くため、研究や開発で書いたコードがそのまま本番のクラウドGPUに移植できます。「手元で試す → クラウドにスケールする」を同一スタックで通せるのは、Strix Halo や Mac にはない強みです。

逆に「とにかく動かせればいい」「コミュニティの情報が豊富なほうがいい」なら、Mac の MLX/Metal は導入が滑らかで日本語情報も増えています。Strix Halo の ROCm は性能こそ出るものの、環境構築でつまずく報告がまだあります（Vulkan/llama.cpp 経由なら比較的安定）。Strix Halo の実測と運用の勘所は「Ryzen AI MAX+ 395（Strix Halo）ローカルLLM 推論ベンチマーク 2026年版」にまとめています。

軸6：価格と消費電力

軸	DGX Spark	Strix Halo ミニ	Mac Studio M4 Max 128GB
価格目安	約$4,399〜5,404（≒70〜85万円）	約30〜51万円	約55〜65万円
OEM廉価版	Acer / ASUS（Ascent GX10）/ Dell（Pro Max GB10）/ MSI（EdgeXpert）	各社ミニPC多数	─
推論時の消費電力	約170〜240W帯	約120〜150W	約120〜160W
アイドル	中	約15〜25W	約20〜30W
静音性	ファン搭載	筐体次第	ほぼ無音

価格は Strix Halo ミニが圧勝です。Beelink GTR9 Pro のような攻めた機種なら128GB構成で約30万円から狙え、DGX Spark の半額以下になります。DGX Spark は当初$3,999スタートでしたが$700の値上げを経て、NVIDIA Marketplaceでは$4,699（DLI講座込み）、Best Buyでは$5,404と、実売は$4,400〜5,400レンジです。

消費電力はどれも優秀で、70B推論を150〜240Wで回せます。RTX 5090デスクトップ（推論中600〜700W）と比べれば3機種とも圧倒的に省電力で、「24時間モデルを回しっぱなし」用途ではどれを選んでも電気代で勝てます。

総合判定：あなたはどれを買うべきか

6軸を踏まえて言い切ります。

あなたの優先事項	選ぶべき
70B以上の生成速度・静音・即レス体感	Mac Studio（M4 Max / M3 Ultra）
300GB超の超巨大モデルを1機に載せたい	Mac Studio M3 Ultra（512GB）
CUDA資産・微調整・クラウド移植の互換性	NVIDIA DGX Spark
長文コンテキスト・RAGでprefillが効く用途	NVIDIA DGX Spark
とにかく安く128GBのLLM機が欲しい	Ryzen AI MAX+ 395 ミニ
Windows/Linux・x86互換・ゲーム兼用	Ryzen AI MAX+ 395 ミニ

私の総括はこうです。速度に金を払えるなら Mac、CUDAという「将来への互換性」に金を払うなら DGX Spark、合理的に安く済ませるなら Strix Halo。 3機種ともスペック表の「128GB」は同じでも、性格はまるで違います。容量だけ見て「どれも同じようなもの」と判断すると、買ってから帯域差・価格差・エコシステムの壁に必ず驚きます。

2陣営での詳しい実測対決は「Ryzen AI MAX+ 395 vs Mac Studio M4 Max ローカルLLM 実測対決 2026年版」に、Strix Haloのメモリ構造そのものは「AMD Strix Halo の Unified Memory とは」にまとめてあります。AMDが2026年6月に予約開始した公式開発機を DGX Spark と単機対決させた「DGX Spark vs Ryzen AI Halo Developer Platform 2026：$3,999 のAMD公式Strix Halo開発機は買いか」も、DGX Spark を検討中なら合わせて読んでください。

入手先・関連商品

当サイトは Amazon.co.jp アソシエイト・プログラムに参加しています。下記リンク経由で購入された場合、紹介料を受け取ることがあります。読者の負担は増えません。リンクは記事評価とは独立しており、編集判断には影響しません。

NVIDIA DGX Spark（GB10）/ OEM版

NVIDIA DGX Spark を Amazon.co.jp で見る — $4,699〜、フルCUDA + TensorRT 環境
Acer Ascent GX10 を Amazon.co.jp で見る — Acer製OEM版、NVIDIA直販の代替

AMD Ryzen AI MAX+ 395（Strix Halo）ミニPC

Beelink GTR9 Pro Ryzen AI MAX+ 395 を Amazon.co.jp で見る — 128GB構成で約30万円、コスパ最強
GMKtec EVO-X2 Strix Halo を Amazon.co.jp で見る — 完成品ミニPCの選択肢、Beelink対抗
Minisforum MS-S1 Max Strix Halo を Amazon.co.jp で見る — BD395i MAX ベアボード搭載、自作派にも

Apple Mac Studio（速度・静音・大容量）

Mac Studio M4 Max 128GB を Amazon.co.jp で見る — 帯域546GB/s、Strix Haloの2倍速
Mac Studio M3 Ultra を Amazon.co.jp で見る — 帯域800GB/s、3機種で最速 (256/512GB構成は在庫薄)
Mac Studio M3 Ultra 256GB を Amazon.co.jp で見る — 200B級モデル対応、DRAM不足で入手難

UPS（DGX Spark / Mac Studio M3 Ultra のような長納期高単価機を停電から守る）

APC SmartUPS 1500VA を Amazon.co.jp で見る — 24時間モデル回しっぱなし運用の保険

あなたに合うPCを診断する

用途や予算をもう少し細かく入力すると、3つの候補構成を提案します。

→ 診断スタート