NVIDIA Corporation (NVDA)¶
核心逻辑¶
从 GPU 供应商向全栈 AI 基础设施平台商演进。竞争护城河持续加宽 — 不仅卖芯片,卖算力+网络+存储+电力的完整栈。
GTC 2026 关键发布¶
- Groq LPX 推理机架: Groq 从独立竞争者变为 NVIDIA 生态组件供应商(Groq 独立估值逻辑需重估)
- Vera ETL256 液冷机架: 256 CPU 全铜缆互联,解决 AI 规模化 CPU 瓶颈
- STX 存储参考架构: 延伸至存储编排层
- CPO 路线图: NVLink 光互联,支持 NVL576/NVL1152 规模集群
- 800V 联盟: 成立 800V 高压直流供电供应商联盟 → concepts/800v-datacenter-power
路线图¶
产能约束¶
- N3 产能排队中,优先级最高但仍受限于 entities/TSM 产能
- AI 芯片交付周期拉长 → 存量 GPU 云租赁价格上行
Alpha 判断¶
- 看多: 全栈化加宽护城河,生态锁定加深
- 关键变量: AI capex 是否持续、竞品(AMD/自研芯片)追赶速度
- ClawTrading Quality Filter: 长期持有标的
相关概念¶
- concepts/ai-silicon-shortage
- concepts/hbm-supercycle(GPU 和 HBM 协同需求)
- concepts/800v-datacenter-power
- concepts/ai-energy-mineral-bottleneck
- concepts/cpo-optical(NVLink 光互联路线图)
深度架构参考¶
zartbot(扎波特的橡皮擦)60 篇 GPU 微架构深度文章,覆盖架构演化史 + Blackwell + Rubin + LPU: → sources/zartbot-gpu-album-index
更新 2026-04-15: Vera Rubin 平台深度分析¶
来源: SemiAnalysis "Vera Rubin – Extreme Co-Design" (2026-02-25, 付费全文)
Rubin GPU 核心规格¶
- 制程: TSMC N3,晶体管 336B(较 Blackwell +60%)
- FP4 性能: 35 PFLOPS dense(GB200 的 3.5x),有效可达 50 PFLOPS(自适应稀疏压缩)
- FP16 性能: 仅 1.6x GB200,NVDA 押注低精度路线(FP4/FP8 成为主力)
- HBM4: 8-stack 288GB,22TB/s 带宽(GB200 的 2.75x);DRAM 供应商难达标,初期出货可能仅 ~20TB/s
- TDP: 最高 2,300W(Max-P)/ 1,800W(Max-Q),软件可配置
- SM 数: 160→224,Tensor Core 宽度翻倍(仅 FP4/FP8)
Vera CPU¶
- 3nm 全尺寸 die,88 核心(印刷 91 核预留冗余),支持 SMT → 176 线程
- L3 缓存 +40% 至 162MB,内存 1.5TB SOCAMM(较 Grace 3x)
- 晶体管 227B(Grace 的 2.2x)
- 支持 PCIe6 + CXL3.1
系统架构演进¶
- VR NVL72 唯一 SKU:不再提供 NVL36 降密度版本,数据中心必须适配 100KW+/rack
- 无缆化计算托盘:用 Amphenol Paladin HD2 板对板连接器替代飞线,装配时间 2h→5min
- PCB 材料升级:CCL 从 M7→M8/M9,铜箔升级 HVLP4,PCB 面积和层数显著增长
- CPX 独立机架:Rubin CPX 从集成方案改为独立机架部署,prefill/decode 解耦
- CMX/ICMS(Inference Context Memory Storage):专用 KV cache 第三网络,BlueField-4 为硅锚点
产业链受益¶
- Amphenol: 无缆化反而利好(Paladin HD2 板对板连接器替代飞线)
- SK Hynix / Samsung: HBM4 独家供应商,Micron 被排除
- PCB 材料链: CCL 升级(M8/M9)、HVLP4 铜箔
- 液冷/供电: 2,300W/GPU → 单 rack 功耗远超 GB200
投资含义¶
- Rubin 代(2026 H2 出货)维持 NVDA 全栈领先地位,竞品(AMD MI450X、TPU v7、Trainium3)难以复制完整硅产品栈
- HBM4 初期良率/带宽可能不及预期 → 出货节奏风险
- 单 rack 功耗门槛提高 → 加速数据中心淘汰周期,利好 Vertiv 等基础设施
- PCB 材料升级是增量市场 → 关注上游 CCL 和铜箔供应商
更新 2026-02-16: InferenceX v2 验证 Blackwell 推理性能代差优势¶
来源: SemiAnalysis InferenceX v2 开源基准测试 (2026-02-16)
核心性能数据¶
- GB300 NVL72: 在 FP8 推理下达到 H100 的 65x 性能,在 FP4 下达到 100x;在 75 tok/s/user 交互性场景下实现 55x 性能提升
- Jensen 承诺兑现: GTC 2024 承诺的 30x 推理性能提升被大幅超越,"chief revenue destroyer" 言论得到验证
- AMD 竞争态势: MI355X 在 FP8 单优化场景(SGLang disagg)可匹敌 B200,但在组合优化(disagg + wideEP + FP4)场景下被帧杀
技术护城河¶
- 软件生态: TensorRT-LLM (TRTLLM) 在 FP8 场景下继续领先开源框架(SGLang/vLLM)
- 能效优势: 全场景 picoJoules/token 显著低于 AMD,数据中心 TCO 优势明显
- AMD 软件短板: disagg prefill + wideEP + FP4 的可组合性问题严重,需等中国团队春节后修复
投资含义¶
- Blackwell 推理超级周期的硬件验证完成,支撑 FY26-27 数据中心营收增长
- GB300 NVL72 机架级方案(72 GPU)的性能代差将加速云厂商替换 H100 集群
- AMD 在高端推理市场短期内无法构成威胁,NVDA 定价权稳固
- 关注 4/16 TSM Q1 财报对 CoWoS 产能的指引,直接影响 GB300 出货节奏
更新 2026-04-20: 黄仁勋访谈:CUDA护城河、产能分配与去CUDA叙事证伪¶
来源: raw/wechat/量子位/20260420_黄仁勋都被问毛了:顶级AI厂商在去CUDA?“你的前提就是错的”_–_量子位.md
- CUDA与ASIC/TPU竞争:老黄明确反驳“去CUDA”趋势,指出TPU/ASIC仅针对矩阵乘法优化,而CUDA的可编程性是AI算法跃迁(如MoE、混合架构)的核心。ASIC利润率同样高达~65%,超大规模厂商自研芯片的TCO优势被夸大,CUDA生态+安装基数+全栈优化构成不可替代的飞轮。
- 产能分配与定价策略:GPU分配严格遵循“订单先到先得”,绝不因需求暴涨而临时加价或“挑客户”。此举旨在维持供应链可预测性与行业信任,短期缓解市场对NVDA利用垄断地位操纵价格的担忧。
- 供应链瓶颈实质:CoWoS/HBM/EUV等硅基瓶颈在强需求信号下2-3年内可解决;真正的长期硬约束是能源与水电基础设施(“管道工和电工”),与concepts/ai-energy-mineral-bottleneck.md逻辑完全共振。
- 投资与云生态:承认早期未投资OpenAI/Anthropic是“认知与资金规模限制”,现已通过直接投资+支持新型云厂商(CoreWeave等)构建生态,但坚持“做必须做但越少越好”的平台哲学,不亲自下场做超算云。
- Alpha含义:去CUDA/ASIC替代叙事短期证伪,NVDA定价权与生态壁垒稳固;算力扩张的边际瓶颈已明确转向能源/配电/散热,继续看多entities/VRT.md及上游能源资产;NVDA资本开支承诺将加速转化为实际交付,后续财报需关注TCO与能效数据验证。
更新 2026-04-21: GTC 2026 战略转型 — 从 GPU 公司到 AI 工厂¶
来源: sources/latepost-terafab-gtc-202604 (晚点播客, Fusion Fund 张璐)
战略宣告¶
- 黄仁勋正式宣告: 英伟达不再是芯片/GPU 公司, 而是 全栈式 AI 基础设施公司
- 目标: "AI 工厂" (AI Factory) — 卖完整系统而非单芯片
- 2026 GTC 一次性发布 7 颗芯片 (vs 过去 1-2 颗/年)
Vera CPU — 专为 Agent 时代设计¶
- 全球首款专为 agentic AI + reinforcement learning 打造的 CPU
- 首次与 GPU 采用统一命名体系 (Vera Rubin)
- 已与阿里、字节、Oracle、Meta 展开合作
- Agent 持续运行 → 工具调用/代码执行/多智能体协同 → CPU 依赖越来越深
Groq 收购 ($200 亿) 实质¶
- 非独家技术授权 + 人才吸纳 (非全资股权收购)
- Groq 创始人: 前 Google TPU 核心成员 (2016 年成立)
- LPU: 低延迟 + 高 token 通量, 特定模型规模下速度优势显著
- 整合到 Vera Rubin 平台 (不是单独产品线) — 高度整合思维
- 2025/12 收购 → 2026/3 GTC 已整合上线, 速度惊人
算力重心迁移: 训练 → 推理¶
| 时期 | 训练 | 推理 |
|---|---|---|
| 过去 | 80% | 20% |
| 现在 | ~50% | ~50% |
| 2027 预测 | 20% | 80% |
- 黄仁勋预测 2027 数据中心收入可能超过 1 万亿美元
- 核心前提: 推理负载将远超训练消耗 (Agent 铺设)
- 多架构共存: GPU + CPU + LPU + NPU, 不再单一依附 GPU
收购加速生态锁定¶
- 2025 年收购 Fusion Fund 2 家被投: Lepton AI (贾扬清) + Nexusflow (焦剑涛)
- Lepton → DGX Cloud Lepton, GPU 云布局关键一步
- 不到 2 年的公司, 产品成熟度+商业化速度极快
- NVDA 收购逻辑: 补缺生态版图, 非纯财务投资
Alpha¶
- NVDA 正在从 "卖铲子" → "卖整个矿场": 全栈生态锁定加深, 迁移成本极高
- 推理 > 训练: LPU/CPU/NPU 价值提升, Groq 整合是关键落子
- CPU 回归: Vera 专为 Agent 设计, 打破 "AI = GPU" 单一叙事
- 7 芯片/年节奏: 生态更新速度远超竞品, AMD/自研芯片追赶难度加大