Mac Studio でローカルLLM を動かす完全ガイド 2026年版：M4 Max / M3 Ultra の Unified Memory 容量別に何が動くか

本記事は Amazon.co.jp および各販売店のアフィリエイトリンクを含む場合があります。推奨は性能・コスパ・実機ベンチマーク基準で編集判断しており、提供記事は受け付けていません。詳細はプライバシーポリシーをご覧ください。

Mac Studio ローカルLLM ガイド 2026:M4 Max 64-128GB / M3 Ultra 96-512GB の容量別動作マトリクス

結論：Mac Studio でローカル LLM を動かすなら、まず M4 Max 64GB を「30〜32B が量子化で快適に回る最小ライン」と覚えてください。70B クラスを Q4 で 8〜15 tok/s 級の実用速度にしたいなら M4 Max 128GB か M3 Ultra 96GB、Llama 3.3 70B を FP16 で扱う研究用途や DeepSeek R1 671B クラスを 1 台に押し込みたいなら M3 Ultra 256GB 以上、それ以下は構成的に意味が薄いです。

「Mac Studio でローカル LLM はどこまで動きますか」は、Mac Studio の新規購入相談で 2026 年に最も多くなった質問です。M3 Ultra と M4 Max の二段構成、しかも Unified Memory の選択肢が 64GB / 96GB / 128GB / 192GB / 256GB（M3 Ultra のみ）と幅広く、組み合わせの数だけで判断が止まりがちです。この記事では、Mac Studio に絞って Unified Memory 容量別にどのモデルがどの量子化で動くか をマトリクスで整理し、ランタイム選択（llama.cpp / Ollama / MLX / LM Studio）と量子化（Q4_K_M / Q5_K_M / Q8_0 / FP16）の判断軸まで整理します。

Mac Studio と MacBook Pro を含む「Claude Code 用途」での選び方は別記事「Mac で Claude Code とローカルLLM を動かす Apple Silicon 構成 2026年版」、Mac Studio vs NVIDIA dGPU の比較ベンチマークは「Mac Studio M3 Ultra vs RTX 5090 ローカルLLM 推論ベンチマーク 2026年版」を合わせて参照してください。本記事は「Mac Studio に絞って、買う前にどの容量を選ぶか」という購買判断のガイドです。

2026年5月時点の Mac Studio ラインナップ

まず現行ラインを整理します。Apple は 2025 年に M3 Ultra と M4 Max の 2 チップで Mac Studio を構成しており、2026 年 5 月時点でも継続しています。

チップ	Unified Memory 選択肢	メモリ帯域	価格目安（税込）
M4 Max	36 / 48 / 64 / 128 GB	410〜546 GB/s	36〜90 万円
M3 Ultra	96 / 192 / 256 GB	約 800 GB/s	80〜180 万円

512GB オプションは 2026 年 4 月に静かに撤去され、256GB の価格も上方修正されました。DRAM 価格の高騰を背景にした調整と見られています。M5 Ultra の Mac Studio は 2026 年後半に予定されており、メモリ帯域 1,200 GB/s 超・最大 256GB という噂が流れていますが、本記事ではまだ流通している M3 Ultra / M4 Max を前提に判断します。

ローカル LLM 用途で見ると、M4 Max は「中規模モデルを安定して回す」、M3 Ultra は「70B 以上を 1 台で完結させる」という役割分担になっており、両者の中間（96GB / 128GB あたり）が最も悩ましいゾーンです。

Unified Memory 容量別：何B モデルがどこまで動くか

macOS は Unified Memory の最大 75% を GPU 側（≒ LLM 推論側）にデフォルトで割り当てます。Terminal から sudo sysctl iogpu.wired_limit_mb を叩いて引き上げれば 90% 級まで GPU 用に確保できますが、その分 OS とアプリの動作領域が圧迫されるので、まずデフォルト 75% で見ます。

下表は各構成で「実用速度（5 tok/s 以上、Swap に落ちない）」で動かせるモデル × 量子化の上限目安です。

構成	GPU 用枠（≒75%）	Q4_K_M 上限	Q5_K_M 上限	Q8_0 上限	FP16 上限
M4 Max 64GB	約 48GB	〜 32B	〜 32B	〜 14B	〜 7B
M4 Max 128GB	約 96GB	〜 70B	〜 70B	〜 32B	〜 14B
M3 Ultra 96GB	約 72GB	〜 70B	〜 32B	〜 32B	〜 8B
M3 Ultra 192GB	約 144GB	〜 120B	〜 70B	〜 70B	〜 32B
M3 Ultra 256GB	約 192GB	〜 235B (MoE)	〜 120B	〜 70B	〜 70B

モデルファイルのサイズだけを見て買うと必ず外します。推論時には KV キャッシュ（コンテキスト長に比例）と推論バッファが追加で必要で、Q4_K_M の Llama 3.3 70B（実ファイル 42GB）を 32k context で回すと実効 55〜60GB、128k context にすると 70GB 近くまで膨らみます。「ファイルサイズ + 30〜50%」を目安に余裕を持って構成してください。

ベンチの実測：構成別の推論速度

2026 年 5 月時点で公開されている主要ベンチを Mac Studio に絞って整理します。MLX（Apple 純正）と llama.cpp（Ollama / LM Studio が内部で使う）の 2 系統で測った値です。

構成	モデル / 量子化	ランタイム	推論速度（短コンテキスト）
M4 Max 64GB	Qwen3 14B MLX	MLX	約 24 tok/s
M4 Max 64GB	Qwen2.5 32B Q4_K_M	Ollama	約 11 tok/s
M4 Max 128GB	Llama 3.3 70B Q4_K_M	Ollama	約 8.5 tok/s
M4 Max 128GB	Llama 3.3 70B MLX 4bit	MLX	約 11 tok/s
M3 Ultra 96GB	Llama 3.3 70B Q4_K_M	Ollama	約 13 tok/s
M3 Ultra 192GB	Llama 3.3 70B FP16	MLX	約 12 tok/s
M3 Ultra 256GB	DeepSeek R1 671B Q4 (MoE)	llama.cpp	約 17〜18 tok/s
M3 Ultra 256GB	Qwen3 235B MoE 4bit	MLX	約 30〜40 tok/s

人間が読み流す速度はおおよそ 8〜10 tok/s なので、Q4 70B を 10 tok/s 級で常用したい人は M4 Max 128GB か M3 Ultra 96GB が下限になります。M3 Ultra 256GB で DeepSeek R1 671B が 17〜18 tok/s 出るのは、MoE（Mixture-of-Experts）で 1 トークンあたり実際にアクティブになるパラメータが 37B 程度に減ることが効いています。MoE モデルが Mac Studio 大容量機の主役用途です。

llama.cpp 系より MLX が 10〜25% 速いのは、Apple Silicon の AMX 命令や Metal 上の最適化が MLX に集約されているためです。同じモデルでも MLX 版（Hugging Face の mlx-community org にプリビルドあり）を選ぶだけで体感が変わります。

VRAM 割当の挙動：macOS の 75% ルールと引き上げ方

Mac Studio で「128GB あるのに 70B FP16 が乗らない」と詰まるケースの多くは、VRAM 割当の上限が原因です。デフォルトでは Unified Memory の 75% までしか GPU が掴めません。

# 現在の上限を確認（バイト単位）
sysctl iogpu.wired_limit_mb

# 引き上げ例：128GB 機で 110GB（112640 MB）まで GPU に許可
sudo sysctl iogpu.wired_limit_mb=112640

この設定は再起動で消えます。常用するなら /etc/sysctl.conf に追記するか、ログイン時の LaunchAgent で叩く運用が一般的です。M3 Ultra 512GB（流通在庫）で DeepSeek R1 671B を動かす場合は、iogpu.wired_limit_mb=458752（448GB）まで上げる例が報告されています。

ただし GPU 枠を上げすぎると OS とアプリ側が窮屈になり、Swap が走り始めると推論速度が一気に崩壊します。実測で M4 Pro 24GB に 32B Q8 を押し込んだケースでは、Swap 突入で 10 tok/s が 0.28 tok/s（理論の 1/35）まで落ちました。Mac Studio でも 90% 超のアグレッシブ割当は、必ず実運用テストをしてから常用してください。

ランタイム選択：llama.cpp / Ollama / LM Studio / MLX

Mac Studio で実用的に使える 4 つのランタイムを役割で整理します。

ランタイム	速度	セットアップ	GUI	対応モデル数
MLX (mlx-lm / mlx-vlm)	◎（最速）	△（pip）	×	○（増加中）
llama.cpp（直叩き）	○	△（make）	×	◎（最多）
Ollama	○	◎（1コマンド）	×（CLI）	◎（公式 + Hub）
LM Studio	○〜◎	◎（GUI）	◎	◎（MLX も対応）

2026 年 5 月時点の推奨はシンプルで、「速度を最大化するなら MLX、楽さなら Ollama か LM Studio、両方欲しいなら LM Studio + MLX バックエンド」です。 Ollama も 2025 年後半に MLX バックエンドのプレビュー対応を入れたので、Ollama を使いつつ MLX の速度メリットを取る選択肢も実用ラインに入ってきました。

具体的な使い分けは、研究・最大速度が必要なら MLX を直接叩く（mlx_lm.generate ...）、日常運用なら Ollama（ollama run llama3.3:70b で即実行）、GUI で家族や同僚に触ってもらうなら LM Studio、というのが標準的な構成です。

量子化選択：Q4_K_M / Q5_K_M / Q8_0 / FP16 の体感差

Mac Studio で意外と差が出るのが量子化選択です。GPU 帯域が NVIDIA に比べて控えめ（M4 Max 546GB/s、M3 Ultra 800GB/s、対する RTX 5090 は GDDR7 で約 1,792GB/s）なので、量子化を細かくしても帯域律速で速度が頭打ちになりやすい一方、品質低下は確実に効いてきます。

量子化	サイズ目安（70B）	速度（M4 Max 128GB）	品質	推奨用途
Q4_K_M	42 GB	約 8.5 tok/s	△〜○	常用、コード生成、要約
Q5_K_M	50 GB	約 7.5 tok/s	○	翻訳、構造化出力
Q8_0	73 GB	載らない	◎	研究、品質重視
FP16	140 GB	載らない	◎	研究（M3 Ultra 192GB 以上）

Mac Studio では、「常用なら Q4_K_M で十分、構造化出力やコード生成の精度が問題になったら Q5_K_M に上げる」「品質をきっちり評価するときだけ M3 Ultra で Q8_0 / FP16 を回す」の三段階で運用するのが現実解です。Q3 以下は品質低下が体感で分かるレベルなので、メモリ節約で Q3 を選ぶより 1 つ下のサイズ（70B → 32B）の Q4 を取るほうが結果が安定します。

用途別の推奨構成

ここまでを 3 つのプリセットに整理します。

入門：30B 級までを安定して回す

項目	構成
機種	Mac Studio M4 Max
メモリ	64 GB
用途	Qwen3 14B / Qwen2.5 32B Q4 を 11〜24 tok/s で運用
価格目安	50〜55 万円

ローカル LLM を本格的に触る人の最小構成です。70B クラスは現実的に厳しいので、「30B 級で十分」が事前に確定している人向けです。M4 Max 64GB は MLX の最適化が効いて 32B クラスでの体感が良好で、Claude Code を主、ローカルを補助で使うハイブリッド派にもよく合います。

実用：70B を Q4 で常用する

項目	構成
機種	Mac Studio M4 Max 128GB または M3 Ultra 96GB
メモリ	128 GB / 96 GB
用途	Llama 3.3 70B Q4 を 8〜13 tok/s で日常運用
価格目安	80〜95 万円

「Mac Studio × ローカル LLM」で迷ったら、まずこのラインを基準にしてください。M4 Max 128GB は GPU 枠が約 96GB と Q5 70B まで実用域、M3 Ultra 96GB は GPU 帯域 800GB/s で同じ Q4 70B が 1.5 倍速で回ります。価格が同じなら M3 Ultra 96GB を取るほうがローカル LLM 用途では合理的で、M4 Max 128GB はメモリ容量で勝負したい人向けです。

研究：70B FP16 / 100B+ MoE を 1 台で

項目	構成
機種	Mac Studio M3 Ultra
メモリ	192 / 256 GB
用途	Llama 3.3 70B FP16、Qwen3 235B MoE、DeepSeek R1 671B Q4
価格目安	130〜180 万円

M3 Ultra 192GB 以上は MoE モデル時代の Mac Studio の強みが活きる 構成です。Qwen3 235B MoE 4bit が 30〜40 tok/s、DeepSeek R1 671B Q4 が 17〜18 tok/s で動くマシンは、2026 年 5 月時点で個人レベルの予算では他にほぼ選択肢がありません。NVIDIA で 671B を Q4 で回そうとすると H100 80GB を 4〜5 枚 + InfiniBand という構成になり、桁が変わります。「研究で 100B+ クラスを 1 台で完結させたい」が確定している人だけの構成です。

結局どの構成を買うべきか：用途別チャート

最後に、迷ったときの判断フローです。

やりたいこと	推奨構成
Claude Code 主体、ローカルは補助	M4 Max 64GB
30B 級を常用、70B は時々	M4 Max 64GB（妥協）or M3 Ultra 96GB
70B Q4 を常用	M3 Ultra 96GB（コスパ最良）
70B Q5 / 32B Q8 を常用	M4 Max 128GB
70B FP16 で精度評価したい	M3 Ultra 192GB
MoE 100B+ や DeepSeek R1 を動かしたい	M3 Ultra 256GB
学習・ファインチューニング主体	Mac Studio ではなく NVIDIA dGPU 機

最後の行は重要で、Mac Studio は推論には強いが学習・LoRA ファインチューニングは NVIDIA に大きく劣ります。MLX も学習対応は進んでいますが、PyTorch + CUDA エコシステムの厚みには現状追いついていません。学習主体なら最初から RTX 5090 や Pro 6000 系を検討するのが筋です。Unified Memory と NVIDIA VRAM の構造的な違いは「Apple Silicon の Unified Memory と NVIDIA VRAM、ローカルLLM では何が違うのか 2026年版」で詳しく整理しています。

入手先・関連商品

当サイトは Amazon.co.jp アソシエイト・プログラムに参加予定です。下記リンク経由で購入された場合、紹介料を受け取ることがあります。読者の負担は増えません。リンクは記事評価とは独立しており、編集判断には影響しません。

Mac Studio 本体（用途別 3 構成）

Mac Studio M4 Max 64GB を Amazon.co.jp で見る — 30B 級を Q4 で安定運用する入門ライン
Mac Studio M3 Ultra 96GB を Amazon.co.jp で見る — 70B Q4 常用のコスパ最良ライン（本記事の推奨中心）
Mac Studio M3 Ultra 256GB を Amazon.co.jp で見る — DeepSeek R1 671B クラスを動かす研究用途

あなたに合うPCを診断する

用途や予算をもう少し細かく入力すると、3つの候補構成を提案します。

→ 診断スタート

Mac で Claude Code とローカルLLM を動かす Apple Silicon 構成 2026年版 — Mac Studio + MacBook Pro を横断した Claude Code 用途の選び方
Mac Studio M3 Ultra vs RTX 5090 ローカルLLM 推論ベンチマーク 2026年版 — Mac Studio と NVIDIA dGPU を実測ベンチで比較
Apple Silicon の Unified Memory と NVIDIA VRAM、ローカルLLM では何が違うのか 2026年版 — Unified Memory と VRAM の構造的な違い
Mac mini vs Mac Studio 2026年版：据え置き Mac の選び方 — 据え置き Mac の用途別比較