ローカルLLMでコーディングエージェントを動かすのに最低どれくらいのVRAMが必要？

実用最低ラインは16GBです。Qwen3 Coder 14B（Q4_K_M）が約8〜9GBで載り、残りをコンテキスト用のKVキャッシュに回せます。RTX 5060 Ti 16GB / RTX 5070 あたりが入口で、14Bコードモデルを38〜42 tok/s 程度で動かせます。8GBではPhi-4-mini級の小型モデルが現実解で、エージェント用途には窮屈です。

Cline や Aider はローカルLLMでクラウドのClaudeやGPT並みに使える？

用途次第です。単発の補完や小さな修正はローカルの14B〜32Bでも十分実用になります。ただし大規模リポジトリを丸ごと読ませる・複数ファイルをまたぐ自律的なリファクタリングは、まだクラウドのフロンティアモデルに分があります。ローカルの強みは「無料・オフライン・コードが外部に出ない」点で、機密コードや常時利用のコスト削減で効きます。

tok/sec が速ければ快適にコーディングできる？

コーディングエージェントでは tok/sec だけ見ると失敗します。リポジトリや長い文脈を投入したときの『プロンプト処理（prefill）速度』と、長コンテキスト時にVRAMを食う『KVキャッシュ』のほうが体感を左右します。生成が速くても、最初の応答までに何十秒も待たされるなら実用になりません。

ローカルコーディングエージェント向けPC構成ガイド 2026年版：Cline / Aider で Qwen3 Coder・DeepSeek をローカル実行するVRAM別構成

本記事は Amazon.co.jp および各販売店のアフィリエイトリンクを含む場合があります。推奨は性能・コスパ・実機ベンチマーク基準で編集判断しており、提供記事は受け付けていません。詳細はプライバシーポリシーをご覧ください。

ローカルコーディングエージェント向けPC構成ガイド 2026：Cline / Aider で Qwen3 Coder・DeepSeek をローカル実行するVRAM別ティア構成

結論：ローカルでコーディングエージェントを回す入口は VRAM 16GB（Qwen3 Coder 14B 中心）、本命は 24GB（32B級）、余裕を持つなら 32GB+ または Strix Halo / Mac の大容量Unified Memory（70B級・長コンテキスト）です。ただしコーディングエージェントでは tok/sec より「リポジトリ投入時のprefill速度」と「コンテキスト長×KVキャッシュのVRAM消費」が体感を決めます。この2点を無視してGPUを選ぶと、生成は速いのに最初の応答が遅すぎて使い物にならない、という失敗を踏みます。

クラウドのClaudeやGPTにAPIを叩いてコードを書かせるのが当たり前になった2026年。一方で「コードを外に出したくない」「APIコストを抑えたい」「オフラインで完結させたい」という理由から、ローカルLLMでコーディングエージェントを回す選択肢も実用域に入りました。Qwen2.5 Coder 14B が HumanEval で約85%に達するなど、ローカルのコードモデルは確かに賢くなっています。

問題は「どのモデルを・どのVRAMで・どのエージェントで」動かすか。私はこの記事で、Cline・Aider・Continue といったコーディングエージェントをローカルLLMで動かすためのPC構成を、VRAMティア別に整理します。あわせて、コーディングエージェント特有の「prefillとコンテキスト長」という落とし穴も最初に潰します。

大前提：コーディングエージェントは「補完」とは負荷が違う

まず認識を揃えます。コードエディタの単純な補完（FIM）と、Cline/Aider のような自律エージェントでは、PCにかかる負荷の質が違います。

補完：短い文脈、短い出力。小型モデルでも軽快。
エージェント：リポジトリのファイル群・差分・指示を長いコンテキストとして毎回投入し、複数ステップで読んで・考えて・書き換える。

エージェント用途で効くのは次の2つです。

prefill（プロンプト処理）速度：数千〜数万トークンのコンテキストを読み込む速さ。ここが遅いと「指示してから最初の反応まで数十秒」になり、対話のテンポが崩れます。
コンテキスト長とKVキャッシュ：長い文脈を保持するほどKVキャッシュがVRAMを食います。モデル本体が載っても、コンテキストを伸ばした瞬間にVRAMが溢れることがあります。

tok/sec（生成速度）はもちろん速いに越したことはありませんが、エージェント用途では上の2つを先に確保してください。prefillの重要性は「ローカルLLM プロンプト処理（prefill）速度 GPU別ベンチマーク 2026年版」、KVキャッシュとコンテキスト長の関係は「ローカルLLM のコンテキスト長と VRAM の関係 2026年版」で詳述しています。

モデル別VRAM目安（Q4_K_M基準）

量子化は Q4_K_M を基準にします。品質低下が1%未満で、VRAMをFP16比で約55%削れる、コーディング用途の鉄板設定です。

モデル	パラメータ	VRAM目安（Q4_K_M・本体のみ）	用途
Phi-4-mini / 7B級	〜7B	約8〜9GB	補完・軽い修正
Qwen3 Coder 14B	14B	約8〜9GB	エージェントの実用入口
Qwen3 Coder 32B	32B	約18〜20GB	エージェントの本命
DeepSeek系 / 35B-A3B MoE	27〜35B	約20〜24GB	高品質・長文
70B級	70B	約39〜42GB	大規模・最高品質

注意：上はあくまでモデル本体のVRAMです。エージェント用途では、ここにコンテキスト長ぶんのKVキャッシュが上乗せされます。14B（約8.3GB）でも、長いコンテキストを保持すると実効で12〜16GB近く食うことがあるため、「16GBあると14Bが快適」という言い方が現実に即しています。

ティア別PC構成

ティア1：VRAM 16GB（14Bコードモデルの実用入口）

項目	推奨
GPU	RTX 5060 Ti 16GB / RTX 5070
動かすモデル	Qwen3 Coder 14B（Q4_K_M）
速度目安	14Bで約38〜42 tok/s
向く用途	単発の修正・補完・小〜中規模ファイルのエージェント操作

ローカルエージェントの現実的な入口がここです。16GBあれば 14B コードモデルが本体約8〜9GBで載り、残り7GB前後をコンテキストのKVキャッシュに回せます。RTX 5060 Ti 16GB は価格と省電力のバランスが良く、「まずローカルでCline/Aiderを試す」最初の1枚に向きます。

ティア2：VRAM 24GB（エージェントの本命）

項目	推奨
GPU	RTX 4090 24GB / RTX 3090 24GB（中古）
動かすモデル	Qwen3 Coder 32B（Q4）/ DeepSeek系
速度目安	32Bで約27〜28 tok/s
向く用途	複数ファイルをまたぐリファクタリング・長めのコンテキスト

「本気でローカルエージェントを使う」なら24GBが本命です。32B級のコードモデルが載り、品質が一段上がります。RTX 4090 で 32B を約27〜28 tok/s。「リアルタイムでコードが流れる」体感が得られる速度です。中古の RTX 3090 24GB はコスパの定番で、Q4の32Bを動かす入門にちょうど良い選択です。注意：RTX 5090 は32GBなので、24GBの枠ではなく次のティアに入ります。

ティア3：VRAM 32GB+ / 大容量Unified Memory（70B・長コンテキスト）

項目	推奨
GPU / 機材	RTX 5090 32GB / Strix Halo 128GB / Mac（M4 Max・M5 Max等）
動かすモデル	70B級・大型MoE・超長コンテキスト
向く用途	リポジトリ丸ごと投入・最高品質・常時稼働

70Bクラスや、巨大なコンテキストを常用するならここです。単体GPUなら RTX 5090 32GB ですが、70B Q4（約39〜42GB）は1枚に収まりません。70B以上を1機で快適に回すなら、128GBのUnified Memoryを持つ Ryzen AI MAX+ 395（Strix Halo）や Mac が現実解になります。これらは生成速度こそ専用GPUに譲りますが、「巨大モデル＋長コンテキストをメモリ不足の心配なく載せられる」点でエージェント向きです。

大容量機の選び方は「NVIDIA DGX Spark vs Ryzen AI MAX+ 395 vs Mac Studio：128GBクラスのローカルLLM実行機 3択 2026年版」で3機種を横並びにしています。

接続レシピ：Ollama / LM Studio + Cline / Aider

ローカルモデルとエージェントの接続はシンプルです。OpenAI互換APIで橋渡しします。

Ollama（localhost:11434）または LM Studio を起動し、モデルを落とす。
- 例：ollama pull qwen3-coder:14b
これらはOpenAI互換のエンドポイントを立てるので、Cline / Aider / Continue から「ローカルのOpenAI互換API」として指定するだけ。
Aider は Ollama 経由で、Cline は設定でローカルエンドポイントとモデル名を指定して接続。

実行ツールの選び方（Ollama / LM Studio / llama.cpp / vLLM の違い）は「ローカルLLM実行ツール比較 2026年版」で速度・対応モデル・使いやすさを比較しています。エージェント用途で並列リクエストを捌くなら vLLM、手軽さなら Ollama / LM Studio、という住み分けが基本です。

まとめ：失敗しない選び方

入門・予算重視：VRAM 16GB（RTX 5060 Ti / 5070）で Qwen3 Coder 14B。まずはここでローカルエージェントの感触を掴む。
本命：VRAM 24GB（RTX 4090 / 中古3090）で 32B級。品質と速度のバランスが最も良い。
最高品質・長コンテキスト常用：32GB+ または Strix Halo / Mac の大容量Unified Memory で 70B級。
どのティアでも：tok/secだけでなく、prefill速度とKVキャッシュ（コンテキスト長）を必ず勘定に入れる。

ローカルエージェントは「クラウドの完全代替」ではなく、「機密コード・コスト・オフライン」という明確な動機がある人に効く選択です。その前提で正しいティアを選べば、月額APIコストをかけずに自律コーディングを回せます。

入手先・関連商品

当サイトは Amazon.co.jp アソシエイト・プログラムに参加予定です。下記リンク経由で購入された場合、紹介料を受け取ることがあります。読者の負担は増えません。リンクは記事評価とは独立しており、編集判断には影響しません。

各ティアの代表GPUを1枚ずつ挙げます。

ティア1（16GB）：GeForce RTX 5060 Ti 16GB を Amazon.co.jp で見る
ティア2（24GB）：GeForce RTX 4090 24GB を Amazon.co.jp で見る
ティア3（32GB+）：GeForce RTX 5090 32GB を Amazon.co.jp で見る

あなたに合うPCを診断する

用途や予算をもう少し細かく入力すると、3つの候補構成を提案します。

→ 診断スタート