コラム 比較

ローカルLLMのパラメータ数 7B / 13B / 70B / 405B とは何か 2026年版:モデルサイズが VRAM・速度・賢さをどう決めるか

ローカルLLMのモデル名につく「7B」「70B」はパラメータ数(10億単位)を表します。この数字が必要VRAM・生成速度・賢さをどう左右するのか、パラメータ数×量子化ビットで必要メモリが概算できる計算式、7B/13B/32B/70B/405Bそれぞれが実際に動くハードの目安まで、数値ベースで解説します。

  • #ローカルLLM
  • #パラメータ数
  • #7B
  • #70B
  • #モデルサイズ
  • #VRAM
  • #量子化
  • #MoE

本記事は Amazon.co.jp および各販売店のアフィリエイトリンクを含む場合があります。推奨は性能・コスパ・実機ベンチマーク基準で編集判断しており、提供記事は受け付けていません。詳細は プライバシーポリシー をご覧ください。

ローカルLLMのパラメータ数 7B / 13B / 70B / 405B とは何か 2026:モデルサイズがVRAM・速度・賢さをどう決めるかを数値で解説

結論:モデル名につく「7B」「70B」の B は Billion(10億)で、パラメータ(重み)の数を表します。この数字は3つを同時に決めます。必要メモリ(パラメータ数 × 量子化のバイト数)、生成速度(多いほど遅い)、賢さ(多いほど上がりやすい)の3つです。家で動かせるかは「パラメータ数 × 1パラメータあたりのバイト数」で概算でき、70BをQ4量子化するなら約40GB。だから「大きいほど良い」ではなく、用途に対して必要十分なサイズを、自分のメモリ容量から逆算するのが正解です。 7B/32Bで足りる用途も多くあります。

ローカルLLMを調べ始めると、最初に引っかかるのが「7B」「13B」「70B」「405B」という数字です。Llama 3.3 70B、Qwen 32B、DeepSeek……モデル名にほぼ必ず付くこの「B」が何を意味し、自分のPCで動くのかどうか、この数字からどう読めばいいのか。ここを押さえると、ローカルLLMのスペック議論がいっきに見通せるようになります。VRAM・量子化・速度といった他の概念も、すべてこのパラメータ数を起点に繋がっているからです。

「B」= Billion(10億)パラメータ

まず一番の基本から。B は Billion(10億) の頭文字で、モデルのパラメータ(重み)の数を表します。

  • 7B = 70億パラメータ
  • 13B / 14B = 130〜140億
  • 32B = 320億
  • 70B = 700億
  • 405B = 4050億

パラメータとは、学習を通じて獲得された無数の数値のことです。ニューラルネットワークの「つまみ」のようなもので、この数が多いほど、モデルが蓄えられる知識やパターンの容量が大きくなります。ざっくり言えば、パラメータ数 = モデルの「頭の大きさ」の目安 です。

そして、この「頭の大きさ」が、そのままPCに要求するメモリ量に直結します。

必要メモリの概算式:パラメータ数 × バイト数

パラメータは1個ずつメモリ上に数値として置かれます。だから必要メモリは、次の式で概算できます。

必要メモリ(GB) ≒ パラメータ数(B) × 1パラメータあたりのバイト数

1パラメータあたりのバイト数は、量子化(重みを何ビットで持つか) で変わります。

精度1パラメータあたり7B13B70B405B
FP16(無圧縮)2バイト約14GB約26GB約140GB約810GB
Q8(8bit)約1バイト約7GB約13GB約70GB約405GB
Q4(4bit)約0.5バイト約4GB約7GB約40GB約200GB超

ここから一気に話が具体的になります。たとえば「70Bを家で動かしたい」なら、FP16の140GBは現実的でないので、Q4量子化で約40GBまで圧縮し、40GB級以上のメモリに載せるのが定石、と即座に分かります。逆に7BならQ4で約4GB、8GBのGPUでも余裕です。

この「量子化でバイト数が変わる仕組み」そのものは量子化フォーマットとは何かに、容量別に何が動くかの早見表はメモリ容量別 動かせるモデル早見表に切り出してあります。本記事の式と早見表はセットで使うと、機種選びがそのまま判断できます。

KVキャッシュの上乗せを忘れない

上の式はあくまで重み(モデル本体)の分です。実際にはこれに、会話の文脈を保持するKVキャッシュがコンテキスト長に応じて上乗せされます。長い文章を扱うほどこのキャッシュが膨らむので、「Q4で40GBだからVRAM 40GBちょうどでOK」ではなく、少し余裕を見ます。コンテキスト長とKVキャッシュの関係はコンテキスト長とKVキャッシュのVRAMで詳しく扱っています。

パラメータ数別:実際にどのハードで動くか

必要メモリが分かれば、各サイズが「どのクラスのハードで動くか」が見えます。Q4量子化を前提にした実用の目安です。

パラメータ数Q4の重み目安動くハードの目安位置づけ
7B / 8B約4〜5GB8〜16GB GPU、各種ミニPC入門・軽量チャット・補完
13〜14B約7〜8GB16GB級GPU軽量と実用の中間
32B約18〜20GB24GB級GPU(RTX 5090等)ローカルの実用バランス点
70B約40GB48GB級GPU、Unified Memory 64GB+高品質・要大容量
235B / 405B級100GB超128GB+ または MoE構成フロンティア級・特殊環境

実用上のスイートスポットは、多くの人にとって 32B前後(24GB級GPUにQ4で載る)です。賢さと速度と必要ハードのバランスがよく、ローカルで「使える」と感じやすいラインです。一方、入門や軽い補完用途なら7B/8Bで十分なことも多く、必ずしも大きいモデルが要るわけではありません。各サイズに対する具体的なPCの組み方はローカルLLMを動かすPCの最低スペックを参照してください。

「大きい=速い・賢い」ではない:速度はむしろ下がる

ここが最大の誤解ポイントです。パラメータ数が増えると、賢さは上がりやすいが、生成速度はむしろ下がります

理由はメモリ帯域です。LLMは1トークン生成するたびに、モデルの重みをメモリから読み出します。パラメータが増えれば読み出すデータ量が増えるので、同じ量子化なら大きいモデルほど1トークンあたりの時間がかかります。つまり生成速度は「メモリ帯域 ÷ モデルサイズ」でおおむね頭打ちになり、大きいモデルほど帯域で律速されて遅くなるわけです。この帯域と速度の関係はメモリ帯域幅が tok/sec を決める仕組みに詳しくまとめています。

同じ量子化なら、パラメータが増えるほど1トークンあたり読むデータが増えて遅くなる。これがローカルLLMで「賢さと速度がトレードオフ」になる正体です。

だから選び方は「載る最大サイズを選ぶ」ではなく、「用途に必要な賢さを満たす最小サイズ」を選ぶのが合理的です。要約や定型処理なら7B/8B、コーディングや込み入った推論なら32B以上、というように、サイズは用途から逆算します。

総パラメータとアクティブパラメータ:MoEの落とし穴

最近のモデルでもう一段ややこしいのが MoE(Mixture of Experts) です。DeepSeek や Llama 4 系に代表される MoE は、「総パラメータ数」と「アクティブパラメータ数」が別物です。

  • 総パラメータ数:モデル全体の重みの数。これが必要メモリを決める(全部メモリに載せる必要がある)
  • アクティブパラメータ数:1トークンの生成で実際に計算に使う一部の重み。これが速度と計算量を決める

たとえば総パラメータが数千億あっても、1トークンで実際に動くアクティブが数十億なら、速度は小さいモデル並みに速いのに、メモリだけは総パラメータ分(巨大)が要る、という挙動になります。「総パラメータが巨大なのに思ったより速い」「でもメモリは大量に要る」というMoE特有の感覚は、この2つを分けて考えると腑に落ちます。仕組みの詳細はMoE(Mixture of Experts)とは何かで噛み砕いています。

整理すると、MoEでは速さはアクティブパラメータ、必要メモリは総パラメータ、と分けて読みます。この分離を知らないと「軽いのか重いのか分からない」と混乱します。

まとめ:パラメータ数は3つの軸を同時に動かす

最後に1枚で。モデル名の「B」を見たら、次の順で読めば判断できます。

  1. B = 10億パラメータ。7Bなら70億、70Bなら700億
  2. 必要メモリ = パラメータ数 × 量子化のバイト数(Q4なら約0.5バイト/param)。70B Q4 ≒ 40GB
  3. 速度はメモリ帯域 ÷ モデルサイズで決まり、大きいほど遅い
  4. 賢さは概ねパラメータ数に比例するが、用途次第で7B/32Bで十分
  5. **MoEは「速さ=アクティブ、メモリ=総パラメータ」**で分けて読む

つまりパラメータ数は、必要メモリ・速度・賢さの3つを同時に動かすダイヤルです。「大きいほど良い」ではなく、自分の用途に必要な賢さを満たす最小サイズを選び、それが自分のメモリ容量に載るかを式で確認する。この逆算ができれば、ローカルLLMのスペック選びはほぼ攻略できます。


あなたに合うPCを診断する

用途や予算をもう少し細かく入力すると、3つの候補構成を提案します。

診断スタート

関連記事