Tensor Core / CUDA Core / RT Core の違い 2026年版：Blackwell世代で何が変わったか

本記事は Amazon.co.jp および各販売店のアフィリエイトリンクを含む場合があります。推奨は性能・コスパ・実機ベンチマーク基準で編集判断しており、提供記事は受け付けていません。詳細はプライバシーポリシーをご覧ください。

Tensor Core / CUDA Core / RT Core の違い 2026:Blackwell世代の SM 構成と3種類のコアの役割

結論：CUDA Core は汎用計算、Tensor Core はAI、RT Core はレイトレ専用。Blackwell世代では Tensor Core が FP4 / FP6 まで対応し、AI推論性能が前世代比で2〜4倍に。GPU選びはこの3種のバランスで決まります。

GPU のスペック表を見ると「CUDA Core 21,760 / 第5世代 Tensor Core / 第4世代 RT Core」のような表記が並んでいます。何となく数が多いほど偉そう、という印象はあっても、それぞれが何を担当していて、どう違うのかは意外と整理されていないものです。この記事では、3種類のコアの役割を一段ずつ分解し、Blackwell世代（RTX 50シリーズ / RTX PRO Blackwell）で何が変わったかをまとめます。

そもそも GPU は何をしているか

CPU が「複雑な仕事を1〜2人で順番にこなす」のに対して、GPU は「単純な仕事を数千人で並列にこなす」装置です。「画面のピクセル100万個に同じ計算を当てる」「行列の要素100万個に同じ演算を当てる」といった処理が、CPU では桁違いに不得意です。

GPU の中には数千個の小さな演算ユニットがあり、それらが似たような計算を同時並行で進めます。NVIDIA の GPU では、これらの演算ユニットが SM (Streaming Multiprocessor) という塊で束ねられており、Blackwell 世代では 1SM あたり以下の構成です。

ユニット	1SM あたりの数	役割
CUDA Core	128	汎用計算（INT32 / FP32）
第5世代 Tensor Core	4	行列演算特化（AI 推論・学習）
第4世代 RT Core	1	レイトレーシング高速化

つまり GPU は「CUDA Core」「Tensor Core」「RT Core」という、得意分野が違う3種類のチームを内蔵した装置です。

CUDA Core：汎用の「何でも屋」

CUDA Core は GPU の中で一番昔からある汎用演算ユニットです。INT32（整数）と FP32（単精度浮動小数点）の演算を担当し、ゲーム描画のシェーダー処理から、科学計算、画像処理、暗号通貨マイニングまで、幅広い計算を引き受けます。

スペック表で「CUDA コア 21,760」とあれば、それだけ並列に走らせられる単純計算の本数が増える、ということです。ゲーム性能や汎用 GPGPU 計算（CUDA で書かれた科学計算など）は CUDA Core 数が直接効きます。

ただし、行列演算のように「特定の形をした計算」に対しては、専用回路を持つ Tensor Core のほうが圧倒的に速い。ここから先は分業の時代です。

Tensor Core：行列演算の「専門家」

Tensor Core は 2017年の Volta アーキテクチャで初登場した、行列演算（行列の積）に特化した専用回路 です。AI のディープラーニングは、99% が行列の積です。これを CUDA Core で計算すると遅いため、専用回路を別途搭載した、というのが Tensor Core の出自です。

Volta から Blackwell まで、Tensor Core は5世代の進化を遂げています。

世代	アーキテクチャ	登場年	主な追加機能
第1世代	Volta	2017	FP16 行列演算（初登場）
第2世代	Turing	2018	INT8 / INT4 推論対応
第3世代	Ampere	2020	TF32 / BF16 / 構造的スパース性
第4世代	Hopper / Ada	2022	FP8 Transformer Engine
第5世代	Blackwell	2024-2025	FP4 / FP6 対応, 第2世代 FP8 TE, TMEM

精度（bit数）を半分に落とすと、スループットがおおむね2倍になります。FP16 → FP8 → FP4 と進むほど、AI 推論の単位時間あたり処理量が増えます。Blackwell 世代の FP4 対応は、前世代 (FP8 まで) の約2倍の推論スループットを意味します。

Blackwell 第5世代 Tensor Core の3つの変化

FP4 / FP6 対応：4bit / 6bit の浮動小数点演算が可能に。LLM 推論で量子化されたモデルを直接ハードウェアで走らせられる
行列+畳み込み統合：行列演算に加え、畳み込み演算もサポート。推論カーネルの実装が単純化
Tensor Memory (TMEM)：第5世代 Tensor Core 専用の新メモリ階層。Hopper 世代で問題だったレジスタ圧迫を解消し、Tensor Core の実効スループットを引き上げ

「FP4 とは何か」を補足すると、4bit で1つの浮動小数を表現する量子化形式です。表現できる値の幅は狭いものの、推論時の品質低下が許容できるケース（たとえば LLM の長文生成）では、FP8 や FP16 と比べて品質劣化が小さい割にスループットが大幅に上がる、というトレードオフが成立します。

RT Core：「光の追跡屋」

RT Core は 2018年の Turing アーキテクチャで初登場した、レイトレーシングを高速化する専用回路 です。

レイトレーシングは「画面のピクセルから光線を逆向きに飛ばし、シーンの中のどの物体に当たったか、反射してどう跳ねたかを追跡する」描画手法です。シーン中に三角形が数百万個ある状況で、光線とすべての三角形の交差判定をやると CUDA Core では現実的な速度になりません。RT Core は BVH (Bounding Volume Hierarchy) のトラバーサルと交差判定を専用回路でやる ため、リアルタイムレイトレが成立します。

RT Core の世代進化はこんな感じです。

世代	アーキテクチャ	登場年	主な変化
第1世代	Turing	2018	レイトレーシング対応の初登場
第2世代	Ampere	2020	スループット約2倍
第3世代	Ada Lovelace	2022	OMM (Opacity Micro-Map), DMM 等
第4世代	Blackwell	2024-2025	Mega Geometry 対応、Path Tracing 高速化

Cyberpunk 2077 / Alan Wake 2 / Indiana Jones などの Path Tracing 対応タイトルで RT Core 世代の差がはっきり出ます。古い世代の RT Core では Path Tracing は実用速度に届きません。

Blackwell 世代の SM 構成を図示する

Blackwell 世代の 1SM は、ざっくり以下のような構成です。

+---------------------------------------+
|  SM (Streaming Multiprocessor)        |
|                                       |
|  [CUDA Core] x 128                    |  ← 汎用計算
|                                       |
|  [第5世代 Tensor Core] x 4            |  ← AI / 行列演算
|     - FP4 / FP6 / FP8 / FP16 / BF16   |
|     - Tensor Memory (TMEM)            |
|                                       |
|  [第4世代 RT Core] x 1                |  ← レイトレーシング
|     - Mega Geometry 対応              |
|                                       |
+---------------------------------------+

RTX 5090 はこの SM を 170 個積んでいます。CUDA Core 総数 21,760、第5世代 Tensor Core 680基、第4世代 RT Core 170基という計算です。

PC 選びにどう効くか

3種類のコアの役割が分かると、用途別に「どのコアの世代と数を見るべきか」が明確になります。

AI / LLM 推論を主用途に

見るべき指標：Tensor Core 世代と FP4 / FP8 対応
目安：Blackwell 世代 (第5世代 Tensor Core) が圧倒的優位。FP4 ハードウェアサポートは LLM 推論の新基準
VRAM も合わせて見る：VRAMとは何か。ローカルLLM推論で必要な量の決まり方 2026年版

ゲーム主用途

見るべき指標：CUDA Core 数 + RT Core 世代 + DLSS 対応世代
目安：レイトレ重視なら RTX 40 / 50 シリーズ。DLSS 4 + Frame Generation で 4K 高画質も実用域

Path Tracing / フォトリアル重視

見るべき指標：RT Core 世代（第4世代 = Blackwell）と DLSS 4
目安：Cyberpunk 2077 オーバードライブモードを快適に動かすなら RTX 4080 以上、安心は RTX 5080 / 5090

汎用 GPGPU / CUDA 計算（科学計算など）

見るべき指標：CUDA Core 数とブーストクロック
目安：シミュレーション系は CUDA Core 数とメモリ帯域が効く

具体的な機種選びは「RTX 5090 vs RTX 4090 vs RTX PRO 6000 Blackwell 2026年版」で詳しく扱っています。

「Tensor Core が多いほど AI が速い」は本当か

ほぼ正しいですが、注意点が3つあります。

Tensor Core の世代が違うと単純比較できない：第3世代 (Ampere) の Tensor Core 数を第5世代 (Blackwell) と比べても意味が薄い
メモリ帯域が同時に効く：Tensor Core が速くても、VRAM からデータを引き出す帯域が足りないと真価が出ない
VRAM 容量がモデルサイズの上限を決める：そもそもモデルが乗らないと推論が始まらない

つまり Tensor Core は「速度」、VRAM は「乗るかどうか」、メモリ帯域は「Tensor Core を遊ばせないための補給線」という関係です。AI 用途で GPU を選ぶときは、この3点を同時に見る必要があります。

RTX 5090 を Amazon で見る

用語まとめ：1行擬人化

CUDA Core = 何でも屋（ゲーム描画も汎用計算も担当）
Tensor Core = AI の専門家（行列演算だけを高速にこなす）
RT Core = 光追跡屋（レイトレ専用の交差判定マシン）

GPU のスペック表でこれら3つを見るときは、「うちのチームには何が何人いるか」を確認している、と思えば直感的に読めるはずです。

あなたに合うPCを診断する

用途や予算をもう少し細かく入力すると、3つの候補構成を提案します。

→ 診断スタート

VRAMとは何か。ローカルLLM推論で必要な量の決まり方 2026年版 — 姉妹記事:GPU の「メモリ」軸
RTX 5090 vs 4090 vs PRO 6000 — AI用途で選ぶGPU 2026 — Blackwell世代の選定実例
Apple Silicon Unified Memory vs NVIDIA VRAM 2026年版 — Mac勢の補完軸