ローカルLLMで結局どのモデルを選べばいい？

用途とVRAM容量で決まります。汎用・日本語のバランス重視なら Qwen 3.5 32B（16〜24GB級）、コーディングなら同じく Qwen 3.5 系か Llama 4 Scout、ノートPCやミニPCの省VRAM環境なら Gemma 4 E4B（3GB）や 8B級、超長文を扱うなら10Mトークン対応の Llama 4 Scout、品質最優先で大容量メモリがあるなら DeepSeek V3.2 という住み分けが2026年6月時点の基本です。

量子化（Q4_K_M）するとVRAMはどれくらい減る？

FP16比でおおむね4分の1前後になります。例えば32Bモデルは FP16 で約64GB必要ですが、Q4_K_M なら約18〜20GB（KVキャッシュ込み）まで落ち、24GBのGPUや32GB Mac で実用的に動きます。ローカル運用では Q4_K_M か Q5_K_M が品質とVRAMのバランスで定番です。

日本語が得意なローカルLLMはどれ？

2026年6月時点では Qwen 3.5 系と Gemma 4 が日本語の自然さで上位です。Llama 4 系も改善しましたが、長文の日本語生成では Qwen 3.5 のほうが安定する場面が多めです。商用利用するなら Apache 2.0 / MIT などライセンスも合わせて確認してください。

ローカルLLM モデルの選び方ガイド 2026年版：Llama 4 Scout / Qwen 3.5 / Gemma 4 / DeepSeek V3.2 を VRAM・用途・日本語で選ぶ

本記事は Amazon.co.jp および各販売店のアフィリエイトリンクを含む場合があります。推奨は性能・コスパ・実機ベンチマーク基準で編集判断しており、提供記事は受け付けていません。詳細はプライバシーポリシーをご覧ください。

ローカルLLM モデルの選び方ガイド 2026：Llama 4 Scout / Qwen 3.5 / Gemma 4 / DeepSeek V3.2 を VRAM・用途・日本語で選ぶ

結論：ローカルLLMは「どのPCで動かすか」の前に「どのモデルを動かすか」を決めるのが先です。2026年6月時点の指名は、汎用＋日本語のバランスなら Qwen 3.5 32B（量子化で16〜24GB級に収まる）、コーディング重視も Qwen 3.5 系か Llama 4 Scout、ノートPCやミニPCの省VRAM環境なら Gemma 4 E4B（3GB）か 8B級、超長文なら10Mトークン対応の Llama 4 Scout、品質最優先で大容量メモリがあるなら DeepSeek V3.2。まず用途とVRAMでモデルを絞り、それから必要なハードを決める。この順番が失敗しないコツです。

ローカルLLMの相談を受けると、最初に「どのGPUを買えばいいですか」と聞かれることがほとんどです。でも本当はその前に決めることがあります。動かすモデルです。モデルが決まればVRAM要件が決まり、VRAMが決まって初めて「ならこのGPU」「なら128GBのStrix Halo」と話が進みます。順番が逆だと、せっかく高いハードを買ったのに用途に合わないモデルしか動かせない、ということが起きます。

この記事では、2026年6月時点で実際にローカルで動かす価値のある主要モデル（Llama 4 Scout / Qwen 3.5 / Gemma 4 / DeepSeek V3.2）を、VRAM容量・用途・日本語・ライセンスの軸で整理します。数字はすべて量子化（実運用前提）でのVRAM実用値で、FP16の理論値ではありません。

なお、モデルを動かすPC側の最低スペックは「ローカルLLM・AI開発が動くノートPCの選び方ガイド 2026年版」で扱っています。本記事はあくまで「モデル軸」の選び方です。

まず大前提：VRAMに載るかどうかが9割

ローカルLLMで最初にぶつかる壁は、性能でも速度でもなく「そもそもVRAM（またはMacのUnified Memory）に載るか」です。モデルの重みがメモリに収まらなければ、どんなに高性能なモデルでも動きません。逆に言えば、手元のVRAM容量さえ分かれば候補は一気に絞れます。

ここで効いてくるのが量子化です。量子化は、モデルの重みを表す数値の精度をわざと落としてサイズを縮める技術です。FP16（16ビット）を4ビット相当に圧縮すると、容量はおおむね4分の1になります。品質の低下はQ4_K_Mクラスなら体感でほとんど分からない程度に抑えられており、ローカル運用では Q4_K_M か Q5_K_M が定番です。

ざっくりした目安として、量子化後のVRAM必要量はこうなります。

モデル規模	FP16理論値	Q4_K_M目安（KVキャッシュ込み）
8B級	約16GB	約6〜8GB
27〜32B級	約54〜64GB	約18〜22GB
70B級	約140GB	約42〜48GB
100B超 MoE	（構成による）	約60〜120GB
600B超	約1.2TB超	約400〜640GB

MoE（Mixture of Experts）モデルは「総パラメータは大きいが、1トークンあたりに実際に使う（アクティブな）パラメータは一部」という構造です。ただしVRAMには総パラメータ分の重みをすべて載せる必要がある点に注意してください。アクティブが17Bでも、109B分の重みはメモリに居座ります。アクティブ数が効くのは速度であって、VRAM要件ではありません。

量子化フォーマットごとの速度・品質の違いは「ローカルLLM 量子化フォーマット別推論速度ベンチマーク 2026年版」で実測しています。

VRAM早見表：あなたのメモリで何が動くか

手元のVRAM／Unified Memory容量から逆引きできる早見表です。Q4_K_M前提の実用ラインです。

VRAM / メモリ	動かせるモデルの目安	代表的な選択肢
3〜4GB	超軽量・エッジ	Gemma 4 E4B、3B級
8GB	8B級まで快適	Llama 4系8B相当、Qwen 3.5 8B
16GB	27〜32B級が射程	Gemma 4（26B MoE）、Qwen 3.5 30B級
24GB	32B級が余裕、109B MoEも	Qwen 3.5 32B、Llama 4 Scout
48GB	70B Q4が安定	Llama 3.3 70B級、Qwen 3.5 大型
96〜128GB	70B余裕＋120B級MoE	大型MoE、長文コンテキスト運用
256GB超	600B級も視野	DeepSeek V3.2（FP8で約640GB）

24GBがひとつの分岐点です。RTX 5090（32GB）や Strix Halo（128GB）、Mac Studio（最大512GB）など、ハードによって到達できる段が変わります。自分がどの段に立てるかで、現実的なモデルの上限が決まります。

主要モデル早わかり（2026年6月時点）

ここからは個別のモデルを見ていきます。それぞれ「規模・VRAM・得意分野・ライセンス・日本語」を1枚にまとめました。

モデル	規模	Q4 VRAM目安	得意	ライセンス	日本語
Llama 4 Scout	109B MoE（17B active）	約24GB〜	超長文（10Mトークン）・マルチモーダル	Llama 4 Community	○
Qwen 3.5 32B	32B 密	約18〜22GB	汎用・コーディング・日本語	Apache 2.0	◎
Gemma 4	26B MoE / E4B	約16GB / 約3GB	軽量・エッジ・マルチモーダル	Gemma	◎
DeepSeek V3.2	685B級 MoE	約400〜640GB	最高品質・推論・コーディング	MIT系	○

Llama 4 Scout：とにかく長文を扱いたいなら

Llama 4 Scout は 109B の MoE で、1トークンあたりのアクティブは17B。Q4量子化なら24GB級のGPU1枚で動くのに、10Mトークンという他のどのモデルも到達していないコンテキスト長を持つのが最大の武器です。巨大なコードベース全体を一度に読ませたい、長大なドキュメント群を横断して質問したい、といった「長文ぶち込み系」の用途では現状ほぼ唯一解に近い存在です。マルチモーダル（画像入力）にもネイティブ対応します。

弱点は、純粋な単発の応答品質では後述の Qwen 3.5 や DeepSeek にやや譲る場面があること。長文という飛び道具が要らないなら、無理に選ぶ必要はありません。

Qwen 3.5：迷ったらこれ、の汎用本命

2026年6月時点で「ローカルで1つだけ選べ」と言われたら、私は Qwen 3.5 32B を挙げます。理由は3つ。Apache 2.0で商用利用が明快、コーディング（SWE-bench系のスコアが高い）と汎用チャットの両方で強い、そして日本語が自然。Q4_K_Mなら18〜22GB前後で、24GBのGPUや32GBのMacに無理なく載ります。

小さめのMoEバリアントもあり、16GB級でも動く構成を選べます。汎用・コーディング・日本語のどれを取っても穴がなく、「最初の1台のローカルLLM」として最も後悔しにくいモデルです。

Gemma 4：軽さと日本語の両立、エッジの主役

Gemma 4 は省VRAM環境の主役です。26BのMoE版が4ビット量子化でおよそ16GBに収まり、さらに軽量な Gemma 4 E4B はわずか3GB VRAM で動きます。ノートPCの内蔵GPU、ミニPC、古いグラボでも動かせるのが強みで、音声を含むマルチモーダルにも対応します。日本語の自然さもGoogle系らしく安定しています。

「とりあえずローカルLLMを試したい」「常時起動の軽いアシスタントが欲しい」なら、まず Gemma 4 から入るのが手堅い選択です。

DeepSeek V3.2：品質最優先、ただしハードルは高い

DeepSeek V3.2 は685B級のMoEで、推論能力・コーディング・難問対応で頭ひとつ抜けた品質を持ちます。ただしFP8でも重みが約640GBあり、データセンター級（H100×8相当）か、Mac Studio M3 Ultra の512GBでも厳しいクラスです。個人が常用するモデルというより、大容量メモリ環境を持つ人や研究用途向け。「予算と電力が許すなら最高品質」というポジションです。

このほか GLM-5 など中国系の大型モデルも選択肢に入りますが、個人のローカル運用で現実的に常用しやすいのは上の4本です。

用途別マトリクス：あなたの目的でどれを選ぶか

VRAMで候補を絞ったら、次は用途で決めます。

用途	第一候補	理由
汎用チャット・日本語	Qwen 3.5 32B	バランスと日本語の自然さ
コーディング	Qwen 3.5 系 / Llama 4 Scout	SWE-bench系で高スコア、長文ならScout
超長文・大規模コンテキスト	Llama 4 Scout	10Mトークンは唯一無二
省VRAM・ノート/ミニPC	Gemma 4 E4B / 8B級	3〜8GBで動く
品質最優先（大容量環境）	DeepSeek V3.2	最高クラスの推論品質
マルチモーダル（画像）	Llama 4 Scout / Gemma 4	ネイティブ対応

私のおすすめの絞り方はシンプルです。まずVRAM早見表で自分の段を確認し、その段に入るモデルの中から用途で1つ選ぶ。例えば「24GBのGPUでコーディング」なら Qwen 3.5 32B、「8GBのノートで軽く試す」なら Gemma 4、という具合に、2軸で交差させれば候補はほぼ1つに絞れます。

ライセンスは商用利用前で必ず確認

見落とされがちですが、商用利用するならライセンスは性能と同じくらい重要です。Qwen 3.5 の Apache 2.0、DeepSeek 系の MIT は商用利用が明快で、業務に組み込みやすい部類です。一方 Llama 4 系の Community License や Gemma のライセンスには利用条件・規模制限があり、用途によっては確認が必要です。個人の趣味利用なら気にしなくて大丈夫ですが、製品やサービスに組み込むなら必ず原文を確認してください。

モデルが決まったら、次は実行環境とハード

モデルとVRAM要件が決まったら、あとは「どのツールで動かすか」と「どのハードで動かすか」です。実行ツール（Ollama / LM Studio / llama.cpp / vLLM）の選び方は「ローカルLLM実行ツール比較 2026年版」に、動かすPCの最低スペックは「ローカルLLM・AI開発が動くノートPCの選び方ガイド 2026年版」にまとめています。

この記事のモデル選び → ツール選び → ハード選び、の3ステップを順番に踏めば、「高いPCを買ったのに動かしたいモデルが動かない」という一番もったいない失敗は避けられます。

あなたに合うPCを診断する

用途や予算をもう少し細かく入力すると、3つの候補構成を提案します。

→ 診断スタート