跳转至

NVIDIA Corporation (NVDA)

核心逻辑

从 GPU 供应商向全栈 AI 基础设施平台商演进。竞争护城河持续加宽 — 不仅卖芯片,卖算力+网络+存储+电力的完整栈。

GTC 2026 关键发布

  • Groq LPX 推理机架: Groq 从独立竞争者变为 NVIDIA 生态组件供应商(Groq 独立估值逻辑需重估)
  • Vera ETL256 液冷机架: 256 CPU 全铜缆互联,解决 AI 规模化 CPU 瓶颈
  • STX 存储参考架构: 延伸至存储编排层
  • CPO 路线图: NVLink 光互联,支持 NVL576/NVL1152 规模集群
  • 800V 联盟: 成立 800V 高压直流供电供应商联盟 → concepts/800v-datacenter-power

路线图

LP30 (当前) → LP35 (NVFP4) → LP40 (对接 Feynman 代)
NVLink 铜缆 → NVLink 光学 (Oberon→Kyber 代)

产能约束

  • N3 产能排队中,优先级最高但仍受限于 entities/TSM 产能
  • AI 芯片交付周期拉长 → 存量 GPU 云租赁价格上行

Alpha 判断

  • 看多: 全栈化加宽护城河,生态锁定加深
  • 关键变量: AI capex 是否持续、竞品(AMD/自研芯片)追赶速度
  • ClawTrading Quality Filter: 长期持有标的

相关概念

深度架构参考

zartbot(扎波特的橡皮擦)60 篇 GPU 微架构深度文章,覆盖架构演化史 + Blackwell + Rubin + LPU: → sources/zartbot-gpu-album-index

更新 2026-04-15: Vera Rubin 平台深度分析

来源: SemiAnalysis "Vera Rubin – Extreme Co-Design" (2026-02-25, 付费全文)

Rubin GPU 核心规格

  • 制程: TSMC N3,晶体管 336B(较 Blackwell +60%)
  • FP4 性能: 35 PFLOPS dense(GB200 的 3.5x),有效可达 50 PFLOPS(自适应稀疏压缩)
  • FP16 性能: 仅 1.6x GB200,NVDA 押注低精度路线(FP4/FP8 成为主力)
  • HBM4: 8-stack 288GB,22TB/s 带宽(GB200 的 2.75x);DRAM 供应商难达标,初期出货可能仅 ~20TB/s
  • TDP: 最高 2,300W(Max-P)/ 1,800W(Max-Q),软件可配置
  • SM 数: 160→224,Tensor Core 宽度翻倍(仅 FP4/FP8)

Vera CPU

  • 3nm 全尺寸 die,88 核心(印刷 91 核预留冗余),支持 SMT → 176 线程
  • L3 缓存 +40% 至 162MB,内存 1.5TB SOCAMM(较 Grace 3x)
  • 晶体管 227B(Grace 的 2.2x)
  • 支持 PCIe6 + CXL3.1

系统架构演进

  • VR NVL72 唯一 SKU:不再提供 NVL36 降密度版本,数据中心必须适配 100KW+/rack
  • 无缆化计算托盘:用 Amphenol Paladin HD2 板对板连接器替代飞线,装配时间 2h→5min
  • PCB 材料升级:CCL 从 M7→M8/M9,铜箔升级 HVLP4,PCB 面积和层数显著增长
  • CPX 独立机架:Rubin CPX 从集成方案改为独立机架部署,prefill/decode 解耦
  • CMX/ICMS(Inference Context Memory Storage):专用 KV cache 第三网络,BlueField-4 为硅锚点

产业链受益

  • Amphenol: 无缆化反而利好(Paladin HD2 板对板连接器替代飞线)
  • SK Hynix / Samsung: HBM4 独家供应商,Micron 被排除
  • PCB 材料链: CCL 升级(M8/M9)、HVLP4 铜箔
  • 液冷/供电: 2,300W/GPU → 单 rack 功耗远超 GB200

投资含义

  • Rubin 代(2026 H2 出货)维持 NVDA 全栈领先地位,竞品(AMD MI450X、TPU v7、Trainium3)难以复制完整硅产品栈
  • HBM4 初期良率/带宽可能不及预期 → 出货节奏风险
  • 单 rack 功耗门槛提高 → 加速数据中心淘汰周期,利好 Vertiv 等基础设施
  • PCB 材料升级是增量市场 → 关注上游 CCL 和铜箔供应商

更新 2026-02-16: InferenceX v2 验证 Blackwell 推理性能代差优势

来源: SemiAnalysis InferenceX v2 开源基准测试 (2026-02-16)

核心性能数据

  • GB300 NVL72: 在 FP8 推理下达到 H100 的 65x 性能,在 FP4 下达到 100x;在 75 tok/s/user 交互性场景下实现 55x 性能提升
  • Jensen 承诺兑现: GTC 2024 承诺的 30x 推理性能提升被大幅超越,"chief revenue destroyer" 言论得到验证
  • AMD 竞争态势: MI355X 在 FP8 单优化场景(SGLang disagg)可匹敌 B200,但在组合优化(disagg + wideEP + FP4)场景下被帧杀

技术护城河

  • 软件生态: TensorRT-LLM (TRTLLM) 在 FP8 场景下继续领先开源框架(SGLang/vLLM)
  • 能效优势: 全场景 picoJoules/token 显著低于 AMD,数据中心 TCO 优势明显
  • AMD 软件短板: disagg prefill + wideEP + FP4 的可组合性问题严重,需等中国团队春节后修复

投资含义

  • Blackwell 推理超级周期的硬件验证完成,支撑 FY26-27 数据中心营收增长
  • GB300 NVL72 机架级方案(72 GPU)的性能代差将加速云厂商替换 H100 集群
  • AMD 在高端推理市场短期内无法构成威胁,NVDA 定价权稳固
  • 关注 4/16 TSM Q1 财报对 CoWoS 产能的指引,直接影响 GB300 出货节奏

更新 2026-04-20: 黄仁勋访谈:CUDA护城河、产能分配与去CUDA叙事证伪

来源: raw/wechat/量子位/20260420_黄仁勋都被问毛了:顶级AI厂商在去CUDA?“你的前提就是错的”_–_量子位.md

  • CUDA与ASIC/TPU竞争:老黄明确反驳“去CUDA”趋势,指出TPU/ASIC仅针对矩阵乘法优化,而CUDA的可编程性是AI算法跃迁(如MoE、混合架构)的核心。ASIC利润率同样高达~65%,超大规模厂商自研芯片的TCO优势被夸大,CUDA生态+安装基数+全栈优化构成不可替代的飞轮。
  • 产能分配与定价策略:GPU分配严格遵循“订单先到先得”,绝不因需求暴涨而临时加价或“挑客户”。此举旨在维持供应链可预测性与行业信任,短期缓解市场对NVDA利用垄断地位操纵价格的担忧。
  • 供应链瓶颈实质:CoWoS/HBM/EUV等硅基瓶颈在强需求信号下2-3年内可解决;真正的长期硬约束是能源与水电基础设施(“管道工和电工”),与concepts/ai-energy-mineral-bottleneck.md逻辑完全共振。
  • 投资与云生态:承认早期未投资OpenAI/Anthropic是“认知与资金规模限制”,现已通过直接投资+支持新型云厂商(CoreWeave等)构建生态,但坚持“做必须做但越少越好”的平台哲学,不亲自下场做超算云。
  • Alpha含义:去CUDA/ASIC替代叙事短期证伪,NVDA定价权与生态壁垒稳固;算力扩张的边际瓶颈已明确转向能源/配电/散热,继续看多entities/VRT.md及上游能源资产;NVDA资本开支承诺将加速转化为实际交付,后续财报需关注TCO与能效数据验证。

更新 2026-04-21: GTC 2026 战略转型 — 从 GPU 公司到 AI 工厂

来源: sources/latepost-terafab-gtc-202604 (晚点播客, Fusion Fund 张璐)

战略宣告

  • 黄仁勋正式宣告: 英伟达不再是芯片/GPU 公司, 而是 全栈式 AI 基础设施公司
  • 目标: "AI 工厂" (AI Factory) — 卖完整系统而非单芯片
  • 2026 GTC 一次性发布 7 颗芯片 (vs 过去 1-2 颗/年)

Vera CPU — 专为 Agent 时代设计

  • 全球首款专为 agentic AI + reinforcement learning 打造的 CPU
  • 首次与 GPU 采用统一命名体系 (Vera Rubin)
  • 已与阿里、字节、Oracle、Meta 展开合作
  • Agent 持续运行 → 工具调用/代码执行/多智能体协同 → CPU 依赖越来越深

Groq 收购 ($200 亿) 实质

  • 非独家技术授权 + 人才吸纳 (非全资股权收购)
  • Groq 创始人: 前 Google TPU 核心成员 (2016 年成立)
  • LPU: 低延迟 + 高 token 通量, 特定模型规模下速度优势显著
  • 整合到 Vera Rubin 平台 (不是单独产品线) — 高度整合思维
  • 2025/12 收购 → 2026/3 GTC 已整合上线, 速度惊人

算力重心迁移: 训练 → 推理

时期 训练 推理
过去 80% 20%
现在 ~50% ~50%
2027 预测 20% 80%
  • 黄仁勋预测 2027 数据中心收入可能超过 1 万亿美元
  • 核心前提: 推理负载将远超训练消耗 (Agent 铺设)
  • 多架构共存: GPU + CPU + LPU + NPU, 不再单一依附 GPU

收购加速生态锁定

  • 2025 年收购 Fusion Fund 2 家被投: Lepton AI (贾扬清) + Nexusflow (焦剑涛)
  • Lepton → DGX Cloud Lepton, GPU 云布局关键一步
  • 不到 2 年的公司, 产品成熟度+商业化速度极快
  • NVDA 收购逻辑: 补缺生态版图, 非纯财务投资

Alpha

  1. NVDA 正在从 "卖铲子" → "卖整个矿场": 全栈生态锁定加深, 迁移成本极高
  2. 推理 > 训练: LPU/CPU/NPU 价值提升, Groq 整合是关键落子
  3. CPU 回归: Vera 专为 Agent 设计, 打破 "AI = GPU" 单一叙事
  4. 7 芯片/年节奏: 生态更新速度远超竞品, AMD/自研芯片追赶难度加大