跳转至

SemiAnalysis — AWS Trainium3 Deep Dive (2025-12-04)

概览

SemiAnalysis 付费全文,122KB 深度拆解 AWS Trainium3 芯片架构、机架设计、软件战略和 TCO 分析。是理解 AWS 自研 AI 芯片战略最详尽的公开资料。

关键观点

1. Trainium3 规格

  • 制程: TSMC N3P(与 Vera Rubin、MI450X 同代)
  • MXFP8 FLOPs: 较 Trn2 翻倍,新增 MXFP4 支持(同 MXFP8 性能)
  • HBM3E: 12-high 144GB/chip(4 stack),带宽 +70%(Samsung 5.7Gbps → Hynix/Micron 9.6Gbps)
  • Scale-up: PCIe Gen6 144 lanes,1.2 TB/s/chip(Trn2 的 2x)
  • Scale-out: 最大 400 Gb/s(多数机架仍用 200 Gb/s)

2. 机架架构

  • Trn3 NL32x2 Switched(2026 主力 SKU): 风冷,类似 GB200 NVL36x2
  • Trn3 NL72x2 Switched: 液冷,类似 GB200 NVL72
  • "Amazon Basics" 方法论:perf per TCO 为北极星,不绑定单一架构选择

3. 软件战略 — 开源破 CUDA 护城河

  • Phase 1: 开源 PyTorch 原生后端 + NKI 编译器 + ML ops 库
  • Phase 2: 开源 XLA 图编译器 + JAX 软件栈
  • 认知: CUDA 护城河不是 NVDA 工程师挖的,是百万外部开发者挖的 → AWS 复制此策略
  • LNC=8 支持延后到 2026 年中 → 研究社区广泛采用受阻

4. 三大战场夹击 NVDA

  • Google TPUv7: 极强 perf per TCO
  • AMD MI450X UALoE72: 潜在强劲 perf per TCO + OpenAI 股权返利
  • AWS Trainium3: perf per TCO 优化 + Anthropic 深度绑定
  • SemiAnalysis 判断: NVDA 仍是"丛林之王",但必须加速

5. 供应链细节

  • Marvell 出局: Trn2 设计者,Trn3 败给 Alchip(执行问题)
  • Annapurna: AWS 芯片设计子公司,主导 Trn3 前端
  • Alchip: Trn3 后端物理设计 + 封装设计
  • N3P 漏电流问题: 可能影响时间线

6. Trainium4 前瞻

  • 8-stack HBM4,4x 内存带宽 + 2x 容量 vs Trn3

与现有 Wiki 的关联

投资含义

  • AWS 自研芯片是 NVDA 市场份额的长期结构性威胁
  • 但 NVDA 生态护城河(CUDA + 全栈)短期仍难打破
  • Marvell 失去 Trn3 设计合同 → 关注 Broadcom 在 AI ASIC 设计份额的相对提升
  • Anthropic 深度绑定 AWS → 关注 AMZN 云份额变化