NVIDIA Corporation (NVDA)¶

核心逻辑¶

从 GPU 供应商向全栈 AI 基础设施平台商演进。竞争护城河持续加宽 — 不仅卖芯片，卖算力+网络+存储+电力的完整栈。

GTC 2026 关键发布¶

Groq LPX 推理机架: Groq 从独立竞争者变为 NVIDIA 生态组件供应商（Groq 独立估值逻辑需重估）
Vera ETL256 液冷机架: 256 CPU 全铜缆互联，解决 AI 规模化 CPU 瓶颈
STX 存储参考架构: 延伸至存储编排层
CPO 路线图: NVLink 光互联，支持 NVL576/NVL1152 规模集群
800V 联盟: 成立 800V 高压直流供电供应商联盟 → concepts/800v-datacenter-power

路线图¶

LP30 (当前) → LP35 (NVFP4) → LP40 (对接 Feynman 代)
NVLink 铜缆 → NVLink 光学 (Oberon→Kyber 代)

产能约束¶

N3 产能排队中，优先级最高但仍受限于 entities/TSM 产能
AI 芯片交付周期拉长 → 存量 GPU 云租赁价格上行

Alpha 判断¶

看多: 全栈化加宽护城河，生态锁定加深
关键变量: AI capex 是否持续、竞品（AMD/自研芯片）追赶速度
ClawTrading Quality Filter: 长期持有标的

深度架构参考¶

zartbot（扎波特的橡皮擦）60 篇 GPU 微架构深度文章，覆盖架构演化史 + Blackwell + Rubin + LPU： → sources/zartbot-gpu-album-index

更新 2026-04-15: Vera Rubin 平台深度分析¶

来源: SemiAnalysis "Vera Rubin – Extreme Co-Design" (2026-02-25, 付费全文)

Rubin GPU 核心规格¶

制程: TSMC N3，晶体管 336B（较 Blackwell +60%）
FP4 性能: 35 PFLOPS dense（GB200 的 3.5x），有效可达 50 PFLOPS（自适应稀疏压缩）
FP16 性能: 仅 1.6x GB200，NVDA 押注低精度路线（FP4/FP8 成为主力）
HBM4: 8-stack 288GB，22TB/s 带宽（GB200 的 2.75x）；DRAM 供应商难达标，初期出货可能仅 ~20TB/s
TDP: 最高 2,300W（Max-P）/ 1,800W（Max-Q），软件可配置
SM 数: 160→224，Tensor Core 宽度翻倍（仅 FP4/FP8）

Vera CPU¶

3nm 全尺寸 die，88 核心（印刷 91 核预留冗余），支持 SMT → 176 线程
L3 缓存 +40% 至 162MB，内存 1.5TB SOCAMM（较 Grace 3x）
晶体管 227B（Grace 的 2.2x）
支持 PCIe6 + CXL3.1

系统架构演进¶

VR NVL72 唯一 SKU：不再提供 NVL36 降密度版本，数据中心必须适配 100KW+/rack
无缆化计算托盘：用 Amphenol Paladin HD2 板对板连接器替代飞线，装配时间 2h→5min
PCB 材料升级：CCL 从 M7→M8/M9，铜箔升级 HVLP4，PCB 面积和层数显著增长
CPX 独立机架：Rubin CPX 从集成方案改为独立机架部署，prefill/decode 解耦
CMX/ICMS（Inference Context Memory Storage）：专用 KV cache 第三网络，BlueField-4 为硅锚点

产业链受益¶

Amphenol: 无缆化反而利好（Paladin HD2 板对板连接器替代飞线）
SK Hynix / Samsung: HBM4 独家供应商，Micron 被排除
PCB 材料链: CCL 升级（M8/M9）、HVLP4 铜箔
液冷/供电: 2,300W/GPU → 单 rack 功耗远超 GB200

投资含义¶

Rubin 代（2026 H2 出货）维持 NVDA 全栈领先地位，竞品（AMD MI450X、TPU v7、Trainium3）难以复制完整硅产品栈
HBM4 初期良率/带宽可能不及预期 → 出货节奏风险
单 rack 功耗门槛提高 → 加速数据中心淘汰周期，利好 Vertiv 等基础设施
PCB 材料升级是增量市场 → 关注上游 CCL 和铜箔供应商

更新 2026-02-16: InferenceX v2 验证 Blackwell 推理性能代差优势¶

来源: SemiAnalysis InferenceX v2 开源基准测试 (2026-02-16)

核心性能数据¶

GB300 NVL72: 在 FP8 推理下达到 H100 的 65x 性能，在 FP4 下达到 100x；在 75 tok/s/user 交互性场景下实现 55x 性能提升
Jensen 承诺兑现: GTC 2024 承诺的 30x 推理性能提升被大幅超越，"chief revenue destroyer" 言论得到验证
AMD 竞争态势: MI355X 在 FP8 单优化场景（SGLang disagg）可匹敌 B200，但在组合优化（disagg + wideEP + FP4）场景下被帧杀

技术护城河¶

软件生态: TensorRT-LLM (TRTLLM) 在 FP8 场景下继续领先开源框架（SGLang/vLLM）
能效优势: 全场景 picoJoules/token 显著低于 AMD，数据中心 TCO 优势明显
AMD 软件短板: disagg prefill + wideEP + FP4 的可组合性问题严重，需等中国团队春节后修复

投资含义¶

Blackwell 推理超级周期的硬件验证完成，支撑 FY26-27 数据中心营收增长
GB300 NVL72 机架级方案（72 GPU）的性能代差将加速云厂商替换 H100 集群
AMD 在高端推理市场短期内无法构成威胁，NVDA 定价权稳固
关注 4/16 TSM Q1 财报对 CoWoS 产能的指引，直接影响 GB300 出货节奏

更新 2026-04-20: 黄仁勋访谈：CUDA护城河、产能分配与去CUDA叙事证伪¶

来源: raw/wechat/量子位/20260420_黄仁勋都被问毛了：顶级AI厂商在去CUDA？“你的前提就是错的”_–_量子位.md

CUDA与ASIC/TPU竞争：老黄明确反驳“去CUDA”趋势，指出TPU/ASIC仅针对矩阵乘法优化，而CUDA的可编程性是AI算法跃迁（如MoE、混合架构）的核心。ASIC利润率同样高达~65%，超大规模厂商自研芯片的TCO优势被夸大，CUDA生态+安装基数+全栈优化构成不可替代的飞轮。
产能分配与定价策略：GPU分配严格遵循“订单先到先得”，绝不因需求暴涨而临时加价或“挑客户”。此举旨在维持供应链可预测性与行业信任，短期缓解市场对NVDA利用垄断地位操纵价格的担忧。
供应链瓶颈实质：CoWoS/HBM/EUV等硅基瓶颈在强需求信号下2-3年内可解决；真正的长期硬约束是能源与水电基础设施（“管道工和电工”），与concepts/ai-energy-mineral-bottleneck.md逻辑完全共振。
投资与云生态：承认早期未投资OpenAI/Anthropic是“认知与资金规模限制”，现已通过直接投资+支持新型云厂商（CoreWeave等）构建生态，但坚持“做必须做但越少越好”的平台哲学，不亲自下场做超算云。
Alpha含义：去CUDA/ASIC替代叙事短期证伪，NVDA定价权与生态壁垒稳固；算力扩张的边际瓶颈已明确转向能源/配电/散热，继续看多entities/VRT.md及上游能源资产；NVDA资本开支承诺将加速转化为实际交付，后续财报需关注TCO与能效数据验证。

更新 2026-04-21: GTC 2026 战略转型 — 从 GPU 公司到 AI 工厂¶

来源: sources/latepost-terafab-gtc-202604 (晚点播客, Fusion Fund 张璐)

战略宣告¶

黄仁勋正式宣告: 英伟达不再是芯片/GPU 公司, 而是 全栈式 AI 基础设施公司
目标: "AI 工厂" (AI Factory) — 卖完整系统而非单芯片
2026 GTC 一次性发布 7 颗芯片 (vs 过去 1-2 颗/年)

Vera CPU — 专为 Agent 时代设计¶

全球首款专为 agentic AI + reinforcement learning 打造的 CPU
首次与 GPU 采用统一命名体系 (Vera Rubin)
已与阿里、字节、Oracle、Meta 展开合作
Agent 持续运行 → 工具调用/代码执行/多智能体协同 → CPU 依赖越来越深

Groq 收购 ($200 亿) 实质¶

非独家技术授权 + 人才吸纳 (非全资股权收购)
Groq 创始人: 前 Google TPU 核心成员 (2016 年成立)
LPU: 低延迟 + 高 token 通量, 特定模型规模下速度优势显著
整合到 Vera Rubin 平台 (不是单独产品线) — 高度整合思维
2025/12 收购 → 2026/3 GTC 已整合上线, 速度惊人

算力重心迁移: 训练 → 推理¶

时期	训练	推理
过去	80%	20%
现在	~50%	~50%
2027 预测	20%	80%

黄仁勋预测 2027 数据中心收入可能超过 1 万亿美元
核心前提: 推理负载将远超训练消耗 (Agent 铺设)
多架构共存: GPU + CPU + LPU + NPU, 不再单一依附 GPU

收购加速生态锁定¶

2025 年收购 Fusion Fund 2 家被投: Lepton AI (贾扬清) + Nexusflow (焦剑涛)
Lepton → DGX Cloud Lepton, GPU 云布局关键一步
不到 2 年的公司, 产品成熟度+商业化速度极快
NVDA 收购逻辑: 补缺生态版图, 非纯财务投资

Alpha¶

NVDA 正在从 "卖铲子" → "卖整个矿场": 全栈生态锁定加深, 迁移成本极高
推理 > 训练: LPU/CPU/NPU 价值提升, Groq 整合是关键落子
CPU 回归: Vera 专为 Agent 设计, 打破 "AI = GPU" 单一叙事
7 芯片/年节奏: 生态更新速度远超竞品, AMD/自研芯片追赶难度加大

NVIDIA Corporation (NVDA)¶

核心逻辑¶

GTC 2026 关键发布¶

路线图¶

产能约束¶

Alpha 判断¶

相关概念¶

深度架构参考¶

更新 2026-04-15: Vera Rubin 平台深度分析¶

Rubin GPU 核心规格¶

Vera CPU¶

系统架构演进¶

产业链受益¶

投资含义¶

更新 2026-02-16: InferenceX v2 验证 Blackwell 推理性能代差优势¶

核心性能数据¶

技术护城河¶

投资含义¶

更新 2026-04-20: 黄仁勋访谈：CUDA护城河、产能分配与去CUDA叙事证伪¶

更新 2026-04-21: GTC 2026 战略转型 — 从 GPU 公司到 AI 工厂¶

战略宣告¶

Vera CPU — 专为 Agent 时代设计¶

Groq 收购 ($200 亿) 实质¶

算力重心迁移: 训练 → 推理¶

收购加速生态锁定¶

Alpha¶