跳转至

DMR Knowledge Wiki

SemiAnalysis — AWS Trainium3 Deep Dive

SemiAnalysis — AWS Trainium3 Deep Dive (2025-12-04)¶

概览¶

SemiAnalysis 付费全文，122KB 深度拆解 AWS Trainium3 芯片架构、机架设计、软件战略和 TCO 分析。是理解 AWS 自研 AI 芯片战略最详尽的公开资料。

关键观点¶

1. Trainium3 规格¶

制程: TSMC N3P（与 Vera Rubin、MI450X 同代）
MXFP8 FLOPs: 较 Trn2 翻倍，新增 MXFP4 支持（同 MXFP8 性能）
HBM3E: 12-high 144GB/chip（4 stack），带宽 +70%（Samsung 5.7Gbps → Hynix/Micron 9.6Gbps）
Scale-up: PCIe Gen6 144 lanes，1.2 TB/s/chip（Trn2 的 2x）
Scale-out: 最大 400 Gb/s（多数机架仍用 200 Gb/s）

2. 机架架构¶

Trn3 NL32x2 Switched（2026 主力 SKU）: 风冷，类似 GB200 NVL36x2
Trn3 NL72x2 Switched: 液冷，类似 GB200 NVL72
"Amazon Basics" 方法论：perf per TCO 为北极星，不绑定单一架构选择

3. 软件战略 — 开源破 CUDA 护城河¶

Phase 1: 开源 PyTorch 原生后端 + NKI 编译器 + ML ops 库
Phase 2: 开源 XLA 图编译器 + JAX 软件栈
认知: CUDA 护城河不是 NVDA 工程师挖的，是百万外部开发者挖的 → AWS 复制此策略
LNC=8 支持延后到 2026 年中 → 研究社区广泛采用受阻

4. 三大战场夹击 NVDA¶

Google TPUv7: 极强 perf per TCO
AMD MI450X UALoE72: 潜在强劲 perf per TCO + OpenAI 股权返利
AWS Trainium3: perf per TCO 优化 + Anthropic 深度绑定
SemiAnalysis 判断: NVDA 仍是"丛林之王"，但必须加速

5. 供应链细节¶

Marvell 出局: Trn2 设计者，Trn3 败给 Alchip（执行问题）
Annapurna: AWS 芯片设计子公司，主导 Trn3 前端
Alchip: Trn3 后端物理设计 + 封装设计
N3P 漏电流问题: 可能影响时间线

6. Trainium4 前瞻¶

8-stack HBM4，4x 内存带宽 + 2x 容量 vs Trn3

与现有 Wiki 的关联¶

与 concepts/ai-silicon-shortage 关联: Trn3 也是 N3 产能争夺者之一
与 concepts/ai-industry-panorama 关联: 自研芯片阵营重要成员
与 entities/NVDA 关联: NVDA 面临的三大竞品战场之一

投资含义¶

AWS 自研芯片是 NVDA 市场份额的长期结构性威胁
但 NVDA 生态护城河（CUDA + 全栈）短期仍难打破
Marvell 失去 Trn3 设计合同 → 关注 Broadcom 在 AI ASIC 设计份额的相对提升
Anthropic 深度绑定 AWS → 关注 AMZN 云份额变化