Mac ベンチマーク

Mac mini M4 / M4 Pro でローカルLLMはどこまで動くか 実測ベンチマーク 2026年版:メモリ別の tok/sec と動かせるモデル

Mac mini M4 / M4 Pro でローカルLLMがどこまで実用になるかを、16GBから64GBまでメモリ別に検証します。DeepSeek R1 32BやGemma 3 27B、70Bクラスの実測トークン/秒、メモリ帯域が効く理由、GGUFとMLXの速度差まで、最も安いMacでLLMを動かす現実解を整理しました。

  • #Mac mini
  • #M4
  • #M4 Pro
  • #ローカルLLM
  • #Apple Silicon
  • #MLX
  • #GGUF
  • #DeepSeek R1
  • #Gemma 3
  • #メモリ帯域

本記事は Amazon.co.jp および各販売店のアフィリエイトリンクを含む場合があります。推奨は性能・コスパ・実機ベンチマーク基準で編集判断しており、提供記事は受け付けていません。詳細は プライバシーポリシー をご覧ください。

Mac mini M4 / M4 Pro ローカルLLM ベンチマーク 2026:16-64GB メモリ別の tok/sec と動かせるモデル

結論:最も安く据え置きMacでローカルLLMを試すなら、現実的な下限は「M4 Pro 24GB」、本命は「M4 Pro 48GB」です。無印M4はメモリ帯域120GB/sがボトルネックで8B級までが快適ライン。M4 Proの273GB/sなら、Gemma 3 27BやDeepSeek R1 32BがQ4で11〜18 tok/s前後と実用域に入ります。64GBにすれば70Bクラスもメモリ上は載りますが、帯域律速で3〜5 tok/sと「動くが常用は厳しい」速度。Macは「メモリを増やせば速くなる」のではなく、「帯域で頭打ちになる」点だけは買う前に理解してください。同じモデルでもMLX版を選ぶとGGUFより1.5〜1.7倍速くなります。

「Mac mini M4でローカルLLMはどこまで動くんですか」とよく聞かれます。Mac StudioやMacBook Proに比べて圧倒的に安いMac miniは、ローカルLLM入門機として最も問い合わせが多い機種です。ただネット上の情報は「動いた/動かない」の二択が多く、メモリ容量ごとに何B級モデルがどれくらいの速度で動くのかという肝心の数値が整理されていません。

この記事では、Mac mini M4 / M4 Proを対象に、16GBから64GBまでメモリ別の実用ラインと推論速度(tok/sec)を整理します。Mac Studio(M4 Max / M3 Ultra)の上位帯は「Mac Studio でローカルLLM を動かす完全ガイド 2026年版」で扱っているので、本記事は最安エントリー帯で「どこまで動くか」を知りたい予算重視層向けです。なお本記事はランキングや製品レビューではありません。公開ベンチと実測レンジから「何が動くか」を整理する実測ベンチの体裁で書いています。

2026年5月時点の Mac mini ラインナップ

まずMac miniの現行ラインを整理します。M4とM4 Proの2チップ構成で、ローカルLLM用途で決定的に効くのはメモリ容量とメモリ帯域の2点です。

チップメモリ選択肢メモリ帯域価格目安(税込)
M416 / 24 / 32 GB約 120 GB/s8.5〜18 万円
M4 Pro24 / 48 / 64 GB約 273 GB/s22〜35 万円

M4 Pro 64GB構成は米国MSRPで約$2,199、日本のApple Storeでは構成により概ね33〜35万円前後(ストレージ容量で変動)です。注目すべきはM4とM4 Proでメモリ帯域が約2.3倍違う点で、後述の通りこれが推論速度をほぼ決めます。容量だけ見て無印M4の32GBを買うと、「メモリは足りるのに遅い」状態になりやすいので注意が必要です。

なぜMacは「メモリを増やせば速くなる」わけではないのか

GPUの世界では「VRAMが大きいほど大きいモデルが速く動く」という直感が通じますが、Apple SiliconのローカルLLM推論ではこの直感が半分しか当たりません

LLMのテキスト生成(デコード)は、1トークン出すたびにモデルの全重みをメモリから読み出す処理が支配的です。つまり速度を決めるのは演算性能(compute)ではなく**メモリ帯域(bandwidth)**で、ローカルLLM推論は典型的な「帯域律速(bandwidth-limited)」のワークロードです。

  • メモリ容量 = 「どこまで大きいモデルを載せられるか」を決める(上限)
  • メモリ帯域 = 「載ったモデルがどれくらいの速度で動くか」を決める(速度)

ここを混同すると失敗します。無印M4の32GB(帯域120GB/s)に32Bモデルを載せると、メモリ上は載りますが帯域が足りず実用速度が出ません。一方M4 Proの48GB(帯域273GB/s)なら同じ32Bが2倍以上の速度で回ります。「速度が欲しいならM4 Proを選ぶ。容量だけ増やしても帯域は増えない」。これがMac miniでLLMを動かすときの最重要原則です。

メモリ帯域と推論速度の関係をもっと構造的に理解したい場合は「Apple Silicon の Unified Memory と NVIDIA VRAM、ローカルLLM では何が違うのか 2026年版」を合わせて読んでください。Unified MemoryとVRAMの構造差を整理しています。

メモリ別:何B級モデルがどこまで快適に動くか

macOSはUnified Memoryの最大75%程度をGPU(≒LLM推論)側に割り当てます。実際に「快適に常用できる」ラインは、OSやブラウザの動作領域を残すと容量目安より一段絞られます。下表は各構成の現実解です。

構成チップ快適に回せる規模(Q4目安)位置付け
16GBM4〜8B級(Llama 3.1 8B / Qwen3 8B)入門・お試し
24GBM4 Pro14〜27B級(Gemma 3 27B まで)実用の入口
48GBM4 Pro32B級(DeepSeek R1 32B が快適)本命
64GBM4 Pro70Bが「一応」載る(速度は妥協)容量重視

16GBは8B級まで。Llama 3.1 8BやQwen3 8BをQ4で快適に動かせ、「ローカルLLMとはどういうものか」を体験するには十分です。ただし14B以上を狙うと一気に苦しくなります。

24GBが実用の入口。Gemma 3 27Bあたりまで現実的に動き、要約やコード補完の常用に耐えます。Mac miniでLLMを試したいが予算は抑えたい、という人の最小ラインです。

48GBが本命。DeepSeek R1 32BクラスがQ4で快適に回り、Mac miniのコスパが最も活きる構成です。迷ったらここを基準にしてください。

64GBは70Bが「一応」載る容量ですが、後述の通り帯域律速で速度が出ません。「速い70B」が欲しいなら、それはMac Studio(M3 Ultra)の領域です。

モデルファイルのサイズだけで判断すると失敗します。推論時にはKVキャッシュ(コンテキスト長に比例)と推論バッファが追加で必要で、**実ファイルサイズ + 30〜50%**を見込んで余裕を持った容量を選ぶのが安全です。

実測ベンチ:構成別の推論速度(tok/sec)

ここからが本題です。2026年5月時点で公開されている主要ベンチと実測レンジを、Mac mini M4 / M4 Proに絞って整理します。数値は4bit量子化(Q4_K_M相当 / MLX 4bit)の短コンテキスト時の目安で、自前測定でないものはランタイム(GGUF = llama.cpp系 / MLX = Apple純正)と量子化の前提を明記しています。

構成モデル / 量子化ランタイム推論速度(短コンテキスト)
M4 Pro 24GBGemma 3 27B Q4GGUF (Ollama/llama.cpp)約 8〜9 tok/s
M4 Pro 24GBGemma 3 27B 4bitMLX約 14〜15 tok/s
M4 Pro 48GBDeepSeek R1 32B Q4GGUF約 11〜14 tok/s
M4 Pro 48GB30B級 Q4〜Q5MLX約 12〜18 tok/s
M4 Pro 64GBLlama 3.3 70B Q4GGUF約 3〜5 tok/s
M4 16GBLlama 3.1 8B Q4MLX約 25〜35 tok/s

人間が文章を読み流す速度はおおよそ8〜10 tok/sなので、この「読める速さ」を常用ラインの目安にすると判断しやすくなります。

注目すべきは2点です。1つ目は70Bの遅さ。M4 Pro 64GBはメモリ上はLlama 3.3 70B Q4(約42GB)が載りますが、273GB/sの帯域では3〜5 tok/sしか出ず、長文生成では待ち時間が体感で辛くなります。「載る」と「実用」は別物で、70Bを常用したいならMac mini では力不足です。

2つ目はGGUFとMLXの差。同じGemma 3 27Bでも、GGUF(Ollama / LM Studioが内部で使う)で8〜9 tok/sのところ、Apple純正のMLXでは14〜15 tok/sと1.5〜1.7倍速くなります。これはApple SiliconのAMX命令やMetal最適化がMLXに集約されているためで、同じMac・同じモデルでもMLX版を選ぶだけで体感が変わります。Hugging Faceのmlx-community組織にプリビルド済みモデルが揃っているので、速度を求めるならまずMLXを試す価値があります。

GGUF か MLX か:Mac mini でのランタイム選択

Mac miniで使えるランタイムを役割で整理します。

ランタイム速度セットアップGUI
MLX (mlx-lm)◎(最速)△(pip / コマンド)×
Ollama (GGUF)◎(1コマンド)×(CLI)
LM Studio○〜◎◎(GUI)◎(MLXも対応)

2026年5月時点の推奨はシンプルです。速度を最大化したいならMLX、手軽さならOllama、GUIで触りたいならLM Studio(MLXバックエンド対応)。Mac miniは絶対性能が限られるぶん、MLXの1.5倍前後の速度差が体感に直結するので、「とりあえずOllama」で遅いと感じたらMLX版を試すのが定石です。

価格対性能:Mac mini でLLMを動かす意味

Mac miniの強みは、LLMが動く据え置き機としては破格に安い点です。M4 Pro 48GB(本命構成)でも30万円弱で、同等のローカルLLM性能をNVIDIA dGPUで得ようとすると、48GB級のVRAMはRTX PRO系(数十万〜百万円超)の領域になります。Unified Memoryが「容量=そのままモデルが載る枠」になるApple Siliconの設計が、ここで効きます。

一方で弱点も正直に書きます。

  • 70B以上の高速運用は不可:帯域律速。速い70BはMac Studio M3 Ultra(帯域800GB/s)以上の領域
  • 学習・ファインチューニングは苦手:推論特化。学習主体ならNVIDIA dGPU機が筋
  • 拡張性ゼロ:購入時のメモリ構成が一生もの。後から増設できないので最初に余裕を持つ

つまりMac miniは「中規模モデル(〜32B級)の推論を、静かで省電力な据え置き機で安く回したい」というニーズにピタリとはまります。逆に70Bを常用したい・学習もしたいなら、最初から上位機やNVIDIA機を検討すべきです。

用途別の推奨構成

ここまでを踏まえた現実的な選び方です。

やりたいこと推奨構成理由
ローカルLLMを体験したいM4 16GB8B級が快適。最小投資で雰囲気を掴む
要約・コード補完を常用M4 Pro 24GB27B級まで実用、コスパ良好
32B級をストレスなく常用M4 Pro 48GB(本命)DeepSeek R1 32Bが快適、迷ったらここ
とにかく大きいモデルを載せたいM4 Pro 64GB70Bが載るが速度は妥協前提
速い70B / 100B+ MoEを動かしたいMac Studio(上位機)帯域が足りない。Mac miniの領域外

「無印M4の32GB」より「M4 Proの24GB」を選ぶ。これが本記事で最も伝えたい判断です。容量は8GB少なくても、帯域が2.3倍ある分だけ同じモデルが目に見えて速く動きます。LLM用途では容量より帯域を優先するのが正解です。

まとめ:Mac mini でローカルLLMを動かす現実解

  • ローカルLLM入門機としてのMac miniは破格に安く、〜32B級の推論用途にぴたりとはまる
  • 速度を決めるのはメモリ容量ではなくメモリ帯域。M4(120GB/s)とM4 Pro(273GB/s)で体感が大きく変わる
  • メモリ別の現実解は16GB→8B級 / 24GB→27Bまで / 48GB→32B快適(本命) / 64GB→70Bが一応載る
  • 70Bはメモリ上は載っても帯域律速で3〜5 tok/sと常用は厳しい。速い70BはMac Studio以上の領域
  • 同じモデルでもMLX版はGGUFより1.5〜1.7倍速い。速度が欲しければまずMLXを試す
  • 「無印M4の32GB」より「M4 Proの24GB」を選ぶ。LLM用途は容量より帯域を優先する

Mac miniは「安く・静かに・中規模モデルを回す」という明確な用途で最適解になります。自分が動かしたいモデルの規模を先に決めれば、選ぶべき構成はほぼ一意に定まります。

入手先・関連商品

当サイトは Amazon.co.jp アソシエイト・プログラムに参加予定です。下記リンク経由で購入された場合、紹介料を受け取ることがあります。読者の負担は増えません。リンクは記事評価とは独立しており、編集判断には影響しません。

Mac mini 本体(用途別)


あなたに合うPCを診断する

用途や予算をもう少し細かく入力すると、3つの候補構成を提案します。

診断スタート

関連記事