Mac Studio M4 Max vs M3 Ultra ローカルLLM ベンチマーク 2026年版:同じ Mac Studio でどちらを選ぶか tok/sec・メモリ帯域・価格で比較
メモリ帯域819GB/s(M3 Ultra)対546GB/s(M4 Max)。同じ Mac Studio でもローカルLLMの速度は約1.5倍変わります。70B/120Bモデルでの tok/sec、最大メモリ容量(128GB対512GB)、価格差を実測ベースで比較し、ローカルLLM用途でどちらの Mac Studio を選ぶべきかを2026年版で具体的に判断します。
- #Mac Studio
- #M4 Max
- #M3 Ultra
- #ローカルLLM
- #メモリ帯域
- #tok/sec
- #Apple Silicon
- #Unified Memory
本記事は Amazon.co.jp および各販売店のアフィリエイトリンクを含む場合があります。推奨は性能・コスパ・実機ベンチマーク基準で編集判断しており、提供記事は受け付けていません。詳細は プライバシーポリシー をご覧ください。

結論:ローカルLLMで70Bクラスまでが主目的なら M4 Max(メモリ帯域546GB/s、最大128GB)、120B超の大規模モデルや容量・速度を最優先するなら M3 Ultra(819GB/s、最大512GB)。同じ Mac Studio という箱でも、メモリ帯域が約1.5倍違うため同じ70Bモデルで生成速度(tok/sec)も約1.5倍変わります。「70Bまでで足りる・コスパ重視」なら M4 Max、「容量で詰まりたくない・とにかく速く・大規模も」なら M3 Ultra、が2026年6月時点の分岐点です。
Mac Studio をローカルLLM用に買おうとすると、最後に必ず迷うのが「M4 Max 構成にするか、M3 Ultra 構成にするか」です。同じ Mac Studio という筐体で、見た目もほぼ同じ。なのに価格は大きく違い、ネット上には「Ultraのほうが速い」「Maxで十分」と相反する声が並びます。
この迷いの正体は、ほとんどの比較が「どちらが優れているか」を漠然と語っていて、ローカルLLMにとって本当に効く指標で比べていないことにあります。その指標とはメモリ帯域です。LLMのトークン生成速度は、CPUコア数でもGPU性能でもなく、メモリ帯域にほぼ比例します。
この記事では、M4 Max と M3 Ultra を「メモリ帯域・tok/sec・最大容量・価格」という、ローカルLLMで本当に効く4軸で比較します。tok/sec は当サイトの既存実測(Mac Studio M3 Ultra vs RTX 5090 / Ryzen AI MAX+ 395 vs Mac Studio M4 Max)の数値をベースに整合させたレンジです。
まず核心:メモリ帯域が tok/sec を決める
比較の前に、なぜ帯域がそんなに重要なのかを押さえます。LLMがトークンを1つ生成するたびに、モデルの重み全体をメモリから読み出す必要があります。70Bモデル(Q4で約40GB)なら、1トークンごとに約40GBを読む。だから「1秒間にメモリを何GB読めるか」=メモリ帯域が、そのまま「1秒間に何トークン出せるか」の上限を決めます。
| チップ | メモリ帯域 | 最大メモリ | GPUコア |
|---|---|---|---|
| M4 Max | 546 GB/s | 128GB | 最大40コア |
| M3 Ultra | 819 GB/s | 512GB | 最大80コア |
帯域比は 819 ÷ 546 ≒ 1.5倍。これがそのまま生成速度の差として現れます。なぜ帯域が容量より重要なのか、その仕組みは「メモリ帯域幅(GB/s)がローカルLLMの tok/sec を決める仕組み 2026年版」で詳しく解説しています。ここでは「帯域1.5倍 ≒ 速度1.5倍」という関係だけ頭に入れてください。
ベンチ1:70Bクラスの tok/sec
最も需要が多い70Bクラス(Llama 3.3 70B / Qwen系 72B、Q4_K_M)での生成速度の目安です。
| モデル | M4 Max(546GB/s) | M3 Ultra(819GB/s) |
|---|---|---|
| Llama 3.3 70B Q4 | 約8〜10 tok/s | 約12〜15 tok/s |
| Qwen系 72B Q4 | 約8〜10 tok/s | 約12〜14 tok/s |
| 30B級 Q4 | 約20〜25 tok/s | 約30〜36 tok/s |
70Bクラスで M4 Max は8〜10 tok/s、M3 Ultra は12〜15 tok/s。体感では、M4 Max が「読める速さでスラスラ」、M3 Ultra が「待ちをほぼ感じない」くらいの差です。どちらも実用に耐えますが、長いやり取りを繰り返すほど帯域差は効いてきます。なお M4 Max の70B Q4は約40GBを使うため、64GB構成だとコンテキストを長くとると苦しく、128GB構成が安心です。
ベンチ2:プロンプト処理(TTFT)
トークン生成(読み出し律速)とは別に、入力プロンプトを読み込む「prompt processing(TTFT=最初の1文字までの時間)」があります。こちらは演算(GPU性能)が効くため、GPUコアが倍ある M3 Ultra が有利です。
| 項目 | M4 Max | M3 Ultra |
|---|---|---|
| GPUコア | 最大40 | 最大80 |
| 長文プロンプトのTTFT | 標準 | 約1.5〜2倍速い |
長いシステムプロンプトや大量のドキュメントを毎回読ませる使い方(RAG、長文要約など)では、M3 Ultra のTTFTの速さがはっきり効きます。逆に短い対話中心なら、TTFTの差はあまり気になりません。「生成速度=帯域」「プロンプト処理=GPU演算」と、効く指標が違う点は覚えておくと選びやすくなります。
ベンチ3:大規模モデル(120B超)と容量の壁
ここが M4 Max と M3 Ultra の決定的な分かれ目です。
| メモリ容量 | M4 Max | M3 Ultra | 動くモデルの目安 |
|---|---|---|---|
| 最大容量 | 128GB | 512GB | (構成上限) |
| 70B Q4 | ○(128GB) | ○ | 約40GB |
| 120B級 MoE Q4 | △(128GBでギリギリ) | ○ | 約60〜80GB |
| 235B級 / 複数常駐 | ✕ | ○(256/512GB) | 100GB超 |
| DeepSeek V3.2 級 | ✕ | △(512GBで挑戦) | 400GB超 |
M4 Max は最大128GBなので、70Bは快適でも120B超になると一気に苦しくなります。一方 M3 Ultra は256GB・512GBが選べるため、120B級はもちろん、複数のモデルを同時に常駐させたり、巨大なコンテキストを確保したりする余裕があります。「容量で詰まないこと」自体に価値を感じるなら M3 Ultra 一択です。
ただし2026年に入ってから、ここに大きな注意点が加わりました。世界的なDRAM不足を受けて、Appleは M3 Ultra Mac Studio の大容量構成を相次いで販売停止にしています。512GB構成は2026年3月、256GB構成も同年5月に注文不可となり、執筆時点(2026年6月)では実質96GB構成のみが選べる状態です。納期もM3 / M4 Max構成で9〜10週間と長期化しており、「M3 Ultra の256/512GBで大規模モデルを」という前提そのものが崩れつつあります。この背景にあるメモリ高騰の構造と、いつまで続くか・どう買うべきかは「2026年のメモリ・SSD価格高騰はいつまで続くか」で詳しく整理しています。大容量を狙うなら、入手性も含めて早めに判断するのが現実的です。
ベンチ4:消費電力
Apple Silicon の強みは、この性能を低消費電力で出すことです。
| チップ | LLM推論時の目安 | 備考 |
|---|---|---|
| M4 Max | 約60〜90W | 効率重視 |
| M3 Ultra | 約90〜140W | 2ダイ構成で電力は増えるが帯域・GPUも倍 |
どちらもデスクトップGPU(RTX 5090は単体で500W超)と比べれば圧倒的に省電力です。24時間つけっぱなしでLLMサーバーを立てるような使い方では、この電力効率が効いてきます。
価格対性能:差額に見合うか
最後に、価格差に帯域・容量差が見合うかを考えます。M4 Max 構成と M3 Ultra 構成では、同容量で比べても M3 Ultra のほうが明確に高価です(構成により十数万〜数十万円の差)。
判断の目安はこうです。
- 70Bまでで足りる・予算を抑えたい → M4 Max。8〜10 tok/s は実用十分で、128GB構成なら70Bを安定運用できる。コスパで賢い選択
- 120B超を扱う・容量で詰まりたくない・少しでも速く → M3 Ultra。帯域1.5倍・容量最大512GB・GPU倍は、大規模LLMを本気でやる人には差額に見合う
- どっちつかずで迷う → 動かしたい最大モデルで決める。70Bが上限なら M4 Max、それ以上を視野に入れるなら M3 Ultra
私の結論を一言で言えば、「70BまでならM4 Max、120B超や容量重視ならM3 Ultra」。帯域差は確かにありますが、70Bクラスで止まるなら M4 Max の8〜10 tok/s で困る場面は少なく、浮いた予算をストレージやディスプレイに回すほうが満足度は高いことが多いです。逆に「将来もっと大きいモデルを」と思っているなら、後から容量は増やせないので最初から M3 Ultra にしておくべきです。
→ 70Bまでで足りる人は Mac Studio M4 Max を Amazon.co.jp で見る、120B超や大容量を狙うなら Mac Studio M3 Ultra を Amazon.co.jp で見る をチェック
Mac Studio で具体的に何が動くかの容量別の全体像は「Mac Studio でローカルLLM を動かす完全ガイド 2026年版」に、そもそも Mac mini と Mac Studio のどちらにすべきかは「Mac mini M4 / M4 Pro vs Mac Studio M4 Max / M3 Ultra 2026年版」にまとめています。
入手先・関連商品
当サイトは Amazon.co.jp アソシエイト・プログラムに参加しています。下記リンク経由で購入された場合、紹介料を受け取ることがあります。読者の負担は増えません。リンクは記事評価とは独立しており、編集判断には影響しません。
Mac Studio 本体
- Mac Studio M4 Max を Amazon.co.jp で見る — 70Bまでで足りる人のコスパ最適解、128GB 構成推奨
- Mac Studio M3 Ultra を Amazon.co.jp で見る — 帯域 819GB/s、120B超やマルチモデル常駐向け
- Mac Studio M3 Ultra 256GB を Amazon.co.jp で見る — DRAM 不足で入手難、見つけたら確保推奨
外付け SSD / モデル保管用(70B〜120B モデルは1本20〜80GB、内蔵 SSD だけでは足りません)
- Samsung T9 Portable SSD 4TB Thunderbolt を Amazon.co.jp で見る — USB 3.2 Gen 2x2 で 2,000MB/s 級、モデル置き場の定番
- SanDisk Extreme Pro Portable SSD 4TB を Amazon.co.jp で見る — T9 の対抗馬、ラギッド筐体で持ち運び向き
- OWC Express 1M2 Thunderbolt 5 NVMe ケース を Amazon.co.jp で見る — Gen5 NVMe を Thunderbolt 5 で 6,000MB/s 級、最大速の外付け
Thunderbolt ドック / 周辺機器
- CalDigit TS4 Thunderbolt 4 ドック を Amazon.co.jp で見る — 18 ポート、Mac Studio のディスプレイ / SSD / USB 拡張の鉄板
- Apple Studio Display 27インチ 5K を Amazon.co.jp で見る — Mac Studio に最適化された 5K 表示
- LG UltraFine 32UN880-B 32インチ 4K を Amazon.co.jp で見る — Studio Display 半額帯の 4K 代替
UPS(DRAM 不足時代の長納期 Mac Studio を停電から守る)
- APC ES 750 UPS 無停電電源装置 を Amazon.co.jp で見る — Mac Studio + ディスプレイの 10 分バックアップに十分
あなたに合うPCを診断する
用途や予算をもう少し細かく入力すると、3つの候補構成を提案します。
→ 診断スタート