LLMの「7B」「70B」の B とは何ですか？

B は Billion（10億）の頭文字で、モデルのパラメータ（重み）の数を表します。7B は70億パラメータ、13B は130億、70B は700億、405B は4050億です。パラメータは学習で得られた数値の集まりで、この数が多いほどモデルの容量（知識や表現力の入れ物）が大きくなりますが、その分メモリも多く必要になり、生成速度は下がる傾向があります。

70Bのモデルを動かすには何GBのメモリが必要ですか？

必要メモリは『パラメータ数 × 1パラメータあたりのバイト数』で概算します。FP16（2バイト/param）なら70B≒140GB、4bit量子化のQ4（約0.5バイト/param）なら70B≒40GBが目安です。さらにコンテキスト長に応じたKVキャッシュが上乗せされます。そのため家庭で70Bを動かすには、Q4量子化＋40GB級以上のVRAMかUnified Memoryが実用的な前提になります。

パラメータ数が多いほど速くて賢いのですか？

賢さは概ねパラメータ数に比例して上がりやすい一方、生成速度は逆に下がります。パラメータが増えるほど1トークン生成ごとに読み出す重みが増え、メモリ帯域で律速されるためです。つまり『大きい＝賢いが遅い』が基本。用途次第では7Bや32Bで十分なことも多く、サイズが大きいほど常に良いわけではありません。

総パラメータ数とアクティブパラメータ数の違いは何ですか？

MoE（Mixture of Experts）型のモデルでは、巨大な総パラメータのうち、1トークンの生成で実際に計算する一部（アクティブパラメータ）だけが動きます。たとえば総パラメータが数千億でも、アクティブが数十億なら計算量・速度は小さいモデル並みになります。ただしメモリには総パラメータ分を載せる必要があるため、『速さはアクティブ、必要メモリは総パラメータ』で分けて考えます。

ローカルLLMのパラメータ数 7B / 13B / 70B / 405B とは何か 2026年版：モデルサイズが VRAM・速度・賢さをどう決めるか

本記事は Amazon.co.jp および各販売店のアフィリエイトリンクを含む場合があります。推奨は性能・コスパ・実機ベンチマーク基準で編集判断しており、提供記事は受け付けていません。詳細はプライバシーポリシーをご覧ください。

ローカルLLMのパラメータ数 7B / 13B / 70B / 405B とは何か 2026：モデルサイズがVRAM・速度・賢さをどう決めるかを数値で解説

結論：モデル名につく「7B」「70B」の B は Billion（10億）で、パラメータ（重み）の数を表します。この数字は3つを同時に決めます。必要メモリ（パラメータ数 × 量子化のバイト数）、生成速度（多いほど遅い）、賢さ（多いほど上がりやすい）の3つです。家で動かせるかは「パラメータ数 × 1パラメータあたりのバイト数」で概算でき、70BをQ4量子化するなら約40GB。だから「大きいほど良い」ではなく、用途に対して必要十分なサイズを、自分のメモリ容量から逆算するのが正解です。 7B/32Bで足りる用途も多くあります。

ローカルLLMを調べ始めると、最初に引っかかるのが「7B」「13B」「70B」「405B」という数字です。Llama 3.3 70B、Qwen 32B、DeepSeek……モデル名にほぼ必ず付くこの「B」が何を意味し、自分のPCで動くのかどうか、この数字からどう読めばいいのか。ここを押さえると、ローカルLLMのスペック議論がいっきに見通せるようになります。VRAM・量子化・速度といった他の概念も、すべてこのパラメータ数を起点に繋がっているからです。

「B」= Billion（10億）パラメータ

まず一番の基本から。B は Billion（10億） の頭文字で、モデルのパラメータ（重み）の数を表します。

7B = 70億パラメータ
13B / 14B = 130〜140億
32B = 320億
70B = 700億
405B = 4050億

パラメータとは、学習を通じて獲得された無数の数値のことです。ニューラルネットワークの「つまみ」のようなもので、この数が多いほど、モデルが蓄えられる知識やパターンの容量が大きくなります。ざっくり言えば、パラメータ数 = モデルの「頭の大きさ」の目安 です。

そして、この「頭の大きさ」が、そのままPCに要求するメモリ量に直結します。

必要メモリの概算式：パラメータ数 × バイト数

パラメータは1個ずつメモリ上に数値として置かれます。だから必要メモリは、次の式で概算できます。

必要メモリ(GB) ≒ パラメータ数(B) × 1パラメータあたりのバイト数

1パラメータあたりのバイト数は、量子化（重みを何ビットで持つか） で変わります。

精度	1パラメータあたり	7B	13B	70B	405B
FP16（無圧縮）	2バイト	約14GB	約26GB	約140GB	約810GB
Q8（8bit）	約1バイト	約7GB	約13GB	約70GB	約405GB
Q4（4bit）	約0.5バイト	約4GB	約7GB	約40GB	約200GB超

ここから一気に話が具体的になります。たとえば「70Bを家で動かしたい」なら、FP16の140GBは現実的でないので、Q4量子化で約40GBまで圧縮し、40GB級以上のメモリに載せるのが定石、と即座に分かります。逆に7BならQ4で約4GB、8GBのGPUでも余裕です。

この「量子化でバイト数が変わる仕組み」そのものは量子化フォーマットとは何かに、容量別に何が動くかの早見表はメモリ容量別動かせるモデル早見表に切り出してあります。本記事の式と早見表はセットで使うと、機種選びがそのまま判断できます。

KVキャッシュの上乗せを忘れない

上の式はあくまで重み（モデル本体）の分です。実際にはこれに、会話の文脈を保持するKVキャッシュがコンテキスト長に応じて上乗せされます。長い文章を扱うほどこのキャッシュが膨らむので、「Q4で40GBだからVRAM 40GBちょうどでOK」ではなく、少し余裕を見ます。コンテキスト長とKVキャッシュの関係はコンテキスト長とKVキャッシュのVRAMで詳しく扱っています。

パラメータ数別：実際にどのハードで動くか

必要メモリが分かれば、各サイズが「どのクラスのハードで動くか」が見えます。Q4量子化を前提にした実用の目安です。

パラメータ数	Q4の重み目安	動くハードの目安	位置づけ
7B / 8B	約4〜5GB	8〜16GB GPU、各種ミニPC	入門・軽量チャット・補完
13〜14B	約7〜8GB	16GB級GPU	軽量と実用の中間
32B	約18〜20GB	24GB級GPU（RTX 5090等）	ローカルの実用バランス点
70B	約40GB	48GB級GPU、Unified Memory 64GB+	高品質・要大容量
235B / 405B級	100GB超	128GB+ または MoE構成	フロンティア級・特殊環境

実用上のスイートスポットは、多くの人にとって 32B前後（24GB級GPUにQ4で載る）です。賢さと速度と必要ハードのバランスがよく、ローカルで「使える」と感じやすいラインです。一方、入門や軽い補完用途なら7B/8Bで十分なことも多く、必ずしも大きいモデルが要るわけではありません。各サイズに対する具体的なPCの組み方はローカルLLMを動かすPCの最低スペックを参照してください。

「大きい＝速い・賢い」ではない：速度はむしろ下がる

ここが最大の誤解ポイントです。パラメータ数が増えると、賢さは上がりやすいが、生成速度はむしろ下がります。

理由はメモリ帯域です。LLMは1トークン生成するたびに、モデルの重みをメモリから読み出します。パラメータが増えれば読み出すデータ量が増えるので、同じ量子化なら大きいモデルほど1トークンあたりの時間がかかります。つまり生成速度は「メモリ帯域 ÷ モデルサイズ」でおおむね頭打ちになり、大きいモデルほど帯域で律速されて遅くなるわけです。この帯域と速度の関係はメモリ帯域幅が tok/sec を決める仕組みに詳しくまとめています。

同じ量子化なら、パラメータが増えるほど1トークンあたり読むデータが増えて遅くなる。これがローカルLLMで「賢さと速度がトレードオフ」になる正体です。

だから選び方は「載る最大サイズを選ぶ」ではなく、「用途に必要な賢さを満たす最小サイズ」を選ぶのが合理的です。要約や定型処理なら7B/8B、コーディングや込み入った推論なら32B以上、というように、サイズは用途から逆算します。

総パラメータとアクティブパラメータ：MoEの落とし穴

最近のモデルでもう一段ややこしいのが MoE（Mixture of Experts） です。DeepSeek や Llama 4 系に代表される MoE は、「総パラメータ数」と「アクティブパラメータ数」が別物です。

総パラメータ数：モデル全体の重みの数。これが必要メモリを決める（全部メモリに載せる必要がある）
アクティブパラメータ数：1トークンの生成で実際に計算に使う一部の重み。これが速度と計算量を決める

たとえば総パラメータが数千億あっても、1トークンで実際に動くアクティブが数十億なら、速度は小さいモデル並みに速いのに、メモリだけは総パラメータ分（巨大）が要る、という挙動になります。「総パラメータが巨大なのに思ったより速い」「でもメモリは大量に要る」というMoE特有の感覚は、この2つを分けて考えると腑に落ちます。仕組みの詳細はMoE（Mixture of Experts）とは何かで噛み砕いています。

整理すると、MoEでは速さはアクティブパラメータ、必要メモリは総パラメータ、と分けて読みます。この分離を知らないと「軽いのか重いのか分からない」と混乱します。

まとめ：パラメータ数は3つの軸を同時に動かす

最後に1枚で。モデル名の「B」を見たら、次の順で読めば判断できます。

B = 10億パラメータ。7Bなら70億、70Bなら700億
必要メモリ = パラメータ数 × 量子化のバイト数（Q4なら約0.5バイト/param）。70B Q4 ≒ 40GB
速度はメモリ帯域 ÷ モデルサイズで決まり、大きいほど遅い
賢さは概ねパラメータ数に比例するが、用途次第で7B/32Bで十分
**MoEは「速さ＝アクティブ、メモリ＝総パラメータ」**で分けて読む

つまりパラメータ数は、必要メモリ・速度・賢さの3つを同時に動かすダイヤルです。「大きいほど良い」ではなく、自分の用途に必要な賢さを満たす最小サイズを選び、それが自分のメモリ容量に載るかを式で確認する。この逆算ができれば、ローカルLLMのスペック選びはほぼ攻略できます。

あなたに合うPCを診断する

用途や予算をもう少し細かく入力すると、3つの候補構成を提案します。

→ 診断スタート