AI開発 ガイド

ローカルLLM モデルの選び方ガイド 2026年版:Llama 4 Scout / Qwen 3.5 / Gemma 4 / DeepSeek V3.2 を VRAM・用途・日本語で選ぶ

ローカルLLMはハードよりまずモデル選びです。Llama 4 Scout / Qwen 3.5 / Gemma 4 / DeepSeek V3.2 を VRAM容量・コーディング・日本語・長文用途別に整理し、手元のGPUやMacで実際にどれを動かすべきかを2026年6月時点の最新モデルで具体的に選びます。

  • #ローカルLLM
  • #Llama 4 Scout
  • #Qwen 3.5
  • #Gemma 4
  • #DeepSeek V3.2
  • #量子化
  • #VRAM
  • #モデル選定

本記事は Amazon.co.jp および各販売店のアフィリエイトリンクを含む場合があります。推奨は性能・コスパ・実機ベンチマーク基準で編集判断しており、提供記事は受け付けていません。詳細は プライバシーポリシー をご覧ください。

ローカルLLM モデルの選び方ガイド 2026:Llama 4 Scout / Qwen 3.5 / Gemma 4 / DeepSeek V3.2 を VRAM・用途・日本語で選ぶ

結論:ローカルLLMは「どのPCで動かすか」の前に「どのモデルを動かすか」を決めるのが先です。2026年6月時点の指名は、汎用+日本語のバランスなら Qwen 3.5 32B(量子化で16〜24GB級に収まる)、コーディング重視も Qwen 3.5 系か Llama 4 Scout、ノートPCやミニPCの省VRAM環境なら Gemma 4 E4B(3GB)か 8B級、超長文なら10Mトークン対応の Llama 4 Scout、品質最優先で大容量メモリがあるなら DeepSeek V3.2。まず用途とVRAMでモデルを絞り、それから必要なハードを決める。この順番が失敗しないコツです。

ローカルLLMの相談を受けると、最初に「どのGPUを買えばいいですか」と聞かれることがほとんどです。でも本当はその前に決めることがあります。動かすモデルです。モデルが決まればVRAM要件が決まり、VRAMが決まって初めて「ならこのGPU」「なら128GBのStrix Halo」と話が進みます。順番が逆だと、せっかく高いハードを買ったのに用途に合わないモデルしか動かせない、ということが起きます。

この記事では、2026年6月時点で実際にローカルで動かす価値のある主要モデル(Llama 4 Scout / Qwen 3.5 / Gemma 4 / DeepSeek V3.2)を、VRAM容量・用途・日本語・ライセンスの軸で整理します。数字はすべて量子化(実運用前提)でのVRAM実用値で、FP16の理論値ではありません。

なお、モデルを動かすPC側の最低スペックは「ローカルLLM・AI開発が動くノートPCの選び方ガイド 2026年版」で扱っています。本記事はあくまで「モデル軸」の選び方です。

まず大前提:VRAMに載るかどうかが9割

ローカルLLMで最初にぶつかる壁は、性能でも速度でもなく「そもそもVRAM(またはMacのUnified Memory)に載るか」です。モデルの重みがメモリに収まらなければ、どんなに高性能なモデルでも動きません。逆に言えば、手元のVRAM容量さえ分かれば候補は一気に絞れます。

ここで効いてくるのが量子化です。量子化は、モデルの重みを表す数値の精度をわざと落としてサイズを縮める技術です。FP16(16ビット)を4ビット相当に圧縮すると、容量はおおむね4分の1になります。品質の低下はQ4_K_Mクラスなら体感でほとんど分からない程度に抑えられており、ローカル運用では Q4_K_M か Q5_K_M が定番です。

ざっくりした目安として、量子化後のVRAM必要量はこうなります。

モデル規模FP16理論値Q4_K_M目安(KVキャッシュ込み)
8B級約16GB約6〜8GB
27〜32B級約54〜64GB約18〜22GB
70B級約140GB約42〜48GB
100B超 MoE(構成による)約60〜120GB
600B超約1.2TB超約400〜640GB

MoE(Mixture of Experts)モデルは「総パラメータは大きいが、1トークンあたりに実際に使う(アクティブな)パラメータは一部」という構造です。ただしVRAMには総パラメータ分の重みをすべて載せる必要がある点に注意してください。アクティブが17Bでも、109B分の重みはメモリに居座ります。アクティブ数が効くのは速度であって、VRAM要件ではありません。

量子化フォーマットごとの速度・品質の違いは「ローカルLLM 量子化フォーマット別 推論速度ベンチマーク 2026年版」で実測しています。

VRAM早見表:あなたのメモリで何が動くか

手元のVRAM/Unified Memory容量から逆引きできる早見表です。Q4_K_M前提の実用ラインです。

VRAM / メモリ動かせるモデルの目安代表的な選択肢
3〜4GB超軽量・エッジGemma 4 E4B、3B級
8GB8B級まで快適Llama 4系8B相当、Qwen 3.5 8B
16GB27〜32B級が射程Gemma 4(26B MoE)、Qwen 3.5 30B級
24GB32B級が余裕、109B MoEもQwen 3.5 32B、Llama 4 Scout
48GB70B Q4が安定Llama 3.3 70B級、Qwen 3.5 大型
96〜128GB70B余裕+120B級MoE大型MoE、長文コンテキスト運用
256GB超600B級も視野DeepSeek V3.2(FP8で約640GB)

24GBがひとつの分岐点です。RTX 5090(32GB)や Strix Halo(128GB)、Mac Studio(最大512GB)など、ハードによって到達できる段が変わります。自分がどの段に立てるかで、現実的なモデルの上限が決まります。

主要モデル早わかり(2026年6月時点)

ここからは個別のモデルを見ていきます。それぞれ「規模・VRAM・得意分野・ライセンス・日本語」を1枚にまとめました。

モデル規模Q4 VRAM目安得意ライセンス日本語
Llama 4 Scout109B MoE(17B active)約24GB〜超長文(10Mトークン)・マルチモーダルLlama 4 Community
Qwen 3.5 32B32B 密約18〜22GB汎用・コーディング・日本語Apache 2.0
Gemma 426B MoE / E4B約16GB / 約3GB軽量・エッジ・マルチモーダルGemma
DeepSeek V3.2685B級 MoE約400〜640GB最高品質・推論・コーディングMIT系

Llama 4 Scout:とにかく長文を扱いたいなら

Llama 4 Scout は 109B の MoE で、1トークンあたりのアクティブは17B。Q4量子化なら24GB級のGPU1枚で動くのに、10Mトークンという他のどのモデルも到達していないコンテキスト長を持つのが最大の武器です。巨大なコードベース全体を一度に読ませたい、長大なドキュメント群を横断して質問したい、といった「長文ぶち込み系」の用途では現状ほぼ唯一解に近い存在です。マルチモーダル(画像入力)にもネイティブ対応します。

弱点は、純粋な単発の応答品質では後述の Qwen 3.5 や DeepSeek にやや譲る場面があること。長文という飛び道具が要らないなら、無理に選ぶ必要はありません。

Qwen 3.5:迷ったらこれ、の汎用本命

2026年6月時点で「ローカルで1つだけ選べ」と言われたら、私は Qwen 3.5 32B を挙げます。理由は3つ。Apache 2.0で商用利用が明快、コーディング(SWE-bench系のスコアが高い)と汎用チャットの両方で強い、そして日本語が自然。Q4_K_Mなら18〜22GB前後で、24GBのGPUや32GBのMacに無理なく載ります。

小さめのMoEバリアントもあり、16GB級でも動く構成を選べます。汎用・コーディング・日本語のどれを取っても穴がなく、「最初の1台のローカルLLM」として最も後悔しにくいモデルです。

Gemma 4:軽さと日本語の両立、エッジの主役

Gemma 4 は省VRAM環境の主役です。26BのMoE版が4ビット量子化でおよそ16GBに収まり、さらに軽量な Gemma 4 E4B はわずか3GB VRAM で動きます。ノートPCの内蔵GPU、ミニPC、古いグラボでも動かせるのが強みで、音声を含むマルチモーダルにも対応します。日本語の自然さもGoogle系らしく安定しています。

「とりあえずローカルLLMを試したい」「常時起動の軽いアシスタントが欲しい」なら、まず Gemma 4 から入るのが手堅い選択です。

DeepSeek V3.2:品質最優先、ただしハードルは高い

DeepSeek V3.2 は685B級のMoEで、推論能力・コーディング・難問対応で頭ひとつ抜けた品質を持ちます。ただしFP8でも重みが約640GBあり、データセンター級(H100×8相当)か、Mac Studio M3 Ultra の512GBでも厳しいクラスです。個人が常用するモデルというより、大容量メモリ環境を持つ人や研究用途向け。「予算と電力が許すなら最高品質」というポジションです。

このほか GLM-5 など中国系の大型モデルも選択肢に入りますが、個人のローカル運用で現実的に常用しやすいのは上の4本です。

用途別マトリクス:あなたの目的でどれを選ぶか

VRAMで候補を絞ったら、次は用途で決めます。

用途第一候補理由
汎用チャット・日本語Qwen 3.5 32Bバランスと日本語の自然さ
コーディングQwen 3.5 系 / Llama 4 ScoutSWE-bench系で高スコア、長文ならScout
超長文・大規模コンテキストLlama 4 Scout10Mトークンは唯一無二
省VRAM・ノート/ミニPCGemma 4 E4B / 8B級3〜8GBで動く
品質最優先(大容量環境)DeepSeek V3.2最高クラスの推論品質
マルチモーダル(画像)Llama 4 Scout / Gemma 4ネイティブ対応

私のおすすめの絞り方はシンプルです。まずVRAM早見表で自分の段を確認し、その段に入るモデルの中から用途で1つ選ぶ。例えば「24GBのGPUでコーディング」なら Qwen 3.5 32B、「8GBのノートで軽く試す」なら Gemma 4、という具合に、2軸で交差させれば候補はほぼ1つに絞れます。

ライセンスは商用利用前で必ず確認

見落とされがちですが、商用利用するならライセンスは性能と同じくらい重要です。Qwen 3.5 の Apache 2.0、DeepSeek 系の MIT は商用利用が明快で、業務に組み込みやすい部類です。一方 Llama 4 系の Community License や Gemma のライセンスには利用条件・規模制限があり、用途によっては確認が必要です。個人の趣味利用なら気にしなくて大丈夫ですが、製品やサービスに組み込むなら必ず原文を確認してください。

モデルが決まったら、次は実行環境とハード

モデルとVRAM要件が決まったら、あとは「どのツールで動かすか」と「どのハードで動かすか」です。実行ツール(Ollama / LM Studio / llama.cpp / vLLM)の選び方は「ローカルLLM実行ツール比較 2026年版」に、動かすPCの最低スペックは「ローカルLLM・AI開発が動くノートPCの選び方ガイド 2026年版」にまとめています。

この記事のモデル選び → ツール選び → ハード選び、の3ステップを順番に踏めば、「高いPCを買ったのに動かしたいモデルが動かない」という一番もったいない失敗は避けられます。


あなたに合うPCを診断する

用途や予算をもう少し細かく入力すると、3つの候補構成を提案します。

診断スタート

関連記事