世界模型 (World Models)¶
AI 已经"读完了万卷书",接下来要"行千里路"。世界模型是 AI 理解物理世界的关键路径。
杨立昆: "大语言模型在通往超级智能的路上是条死胡同。" — 限定条件是实现 AGI。
为什么是世界模型?¶
LLM 的瓶颈: - 训练数据是互联网文本,而真实世界是三维、连续、充满物理规律的 - LLM 能"描述"苹果落地,但不一定"理解"重力 — 是在背课文,不是理解 - 幻觉、推理能力、多模态理解仍是硬伤,边际收益递减
世界模型的驱动力: 1. 具身智能崛起: 人形机器人/自动驾驶/工业自动化需要 AI 与物理世界交互 2. 高质量物理交互数据稀缺且昂贵: 世界模型可在仿真中生成无限数据 3. 资本需要新故事: LLM 叙事边际效用递减
五大门派¶
1. JEPA 派 — 杨立昆的「抽象哲学」¶
代表: AMI (杨立昆新公司, 2026春节后成立) / V-JEPA 2
核心思想: 在抽象表征空间 (latent space) 里预测"会发生什么",而非逐像素预测
"AI 不用记住每片叶子的位置,它只需要知道风会吹落树叶。"
| 维度 | 信息 |
|---|---|
| 架构 | Joint-Embedding Predictive Architecture |
| 代表作 | V-JEPA 2 (12 亿参数, 100 万小时无标签视频预训练) |
| 关键能力 | 仅 62 小时机器人数据实现零样本规划, 陌生环境/物体成功率 65-80% |
| 数据效率 | 传统方法需数千小时示范 → V-JEPA 2 极致压缩 |
| 融资 | AMI $10.3 亿种子轮 (欧洲 AI 公司纪录), 2026 春节后 |
| 商业化 | 杨立昆: "商业化产品可能要几年后才能看到" |
核心优势: 数据效率极高,抽象表征学习 主要挑战: 商业化周期长
2. 空间智能派 — 李飞飞的「建筑师」路线¶
代表: World Labs (李飞飞) / Marble
核心思想: AI 需要对三维世界有显式理解 — 几何结构、深度关系、物体相对位置
JEPA 关心"球会从桌子上滚下去"的逻辑; World Labs 关心"桌子多高、球在什么位置"。
| 维度 | 信息 |
|---|---|
| 产品 | Marble (2025/11): 输入文字/照片/视频/3D 草图 → 输出可编辑 3D 世界 |
| 团队 | Ben Mildenhall (NeRF 发明者) + Christoph Lassner (3D 图形专家) |
| 融资 | $10 亿 (2026/2), NVIDIA/AMD/Autodesk 投资 |
| 输出格式 | Gaussian Splat / mesh / 视频, 可直接导入 UE/Unity |
| 空间一致性 | 底层维护真实空间表示, 转身回来世界不变 |
核心优势: 可编辑 3D, 设计/游戏刚需 主要挑战: 物理动态性弱 — 擅长重建"样子",对"会发生什么"理解薄弱;走几步后出现视觉变形
3. 学习型仿真派 — DeepMind「造梦师」¶
代表: DeepMind / Genie 3 / DreamerV4
核心思想: 造出足够真实、可实时交互的虚拟环境,让 AI 在里面练出真本事
| 维度 | 信息 |
|---|---|
| Genie 3 | 输入描述 → 720p/24fps 可交互 3D 环境; 支持对象持久性 (打碎花瓶碎片留在地上) |
| DreamerV4 | 纯靠离线数据在 Minecraft 挖到钻石; 数据量仅为 OpenAI VPT 的 1% |
| 对象持久性 | 从环境持久性→对象持久性, 需每秒多次回溯查询 |
核心优势: 交互性强,训练成本极低 主要挑战: 像素生成≠物理理解; 目前仅维持几分钟连贯性; 物理模拟不如传统引擎精确
4. 基础设施派 — 英伟达「卖铲子」¶
代表: NVIDIA Cosmos
核心逻辑: "你们都在造世界模型? 我来提供造世界模型的工具。"
| 组件 | 功能 |
|---|---|
| Cosmos Curator | 14 天处理 2000 万小时视频 (CPU 方案需 3 年+) |
| Visual Tokenizer | 压缩率比业界高 8x, 支持多种视频格式 |
| Cosmos Predict | 预测环境未来状态 (v2.5) |
| Cosmos Transfer | 将模拟迁移到真实 (v2) |
| Cosmos Reason | 让机器人做规划 (v2) |
客户: 小鹏 (自动驾驶仿真)、Figure AI (训练数据生成) 商业逻辑: 免费开放软件锁定硬件生态 → 最终需要 NVIDIA H/Jetson + CUDA
5. 主动推断派 — 神经科学「异端」¶
代表: Verses / AXIOM / Karl Friston (自由能原理提出者)
核心思想: 生物系统的本质是不断生成预测 + 采取行动减少预测与现实之间的偏差
强化学习 = 逐利 (胡萝卜引导的驴子); 主动推断 = 避险 (修正心理地图的旅行者)
| 维度 | 信息 |
|---|---|
| 框架 | AXIOM: 对象中心化 + 贝叶斯推理 (消息传递, 非梯度下降) |
| 关键特性 | 对象由离散属性+关系组成, 更接近人类认知方式 |
| 性能 | Atari GameWorld 10K 超 DreamerV3, 训练数据远少, 步数仅 ⅛ |
| 独特性 | 不需要预训练, 陌生物体实时重新规划 |
| 商业化 | Genius (金融/机器人/智慧城市), 被 Gartner 写入研报 |
核心优势: 实时适应,可解释性强 主要挑战: 生态兼容性差,短期内很难成为主流
五大门派对比¶
| 门派 | 代表 | 核心优势 | 主要挑战 |
|---|---|---|---|
| JEPA | AMI | 数据效率极高,抽象表征 | 商业化周期长 |
| 空间智能 | World Labs | 可编辑 3D, 设计/游戏刚需 | 物理动态性弱 |
| 学习型仿真 | DeepMind | 交互性强,训练成本低 | 像素生成≠物理理解 |
| 基础设施 | 英伟达 | 全栈平台,生态锁定 | 依赖硬件销售 |
| 主动推断 | Verses | 实时适应,可解释性强 | 生态兼容性差 |
与具身智能的关系¶
世界模型是具身机器人产业链中大脑层的关键组件:
关键关联¶
- 具身机器人产业链 中的 WAM (世界动作模型) 路线 — 英伟达 DreamZero/星动纪元 Ctrl-World
- 阿里 Wan2.½.2 是行业基石 — 全球机器人视觉基座都在用的开源视频生成模型
- 高德 ABot-World 世界模型 — 详见 具身机器人产业链 04-20 更新
Alpha 含义¶
- AMI (\(10.3亿) / World Labs (\)10亿): 世界模型赛道融资热度仅次于 LLM,资本押注 LLM 后的下一个范式
- NVIDIA Cosmos: 巩固"卖铲子"地位,无论哪条路线胜出都需要 NVIDIA 基础设施
- DeepMind Genie 3 + DreamerV4: 如果仿真→真实泛化被证明可行,将颠覆机器人训练范式
- 融合是唯一出路: 五条路线不是非此即彼,而是同一块拼图的不同碎片
- 时间窗口: 杨立昆断言"五年后没有人会再用今天这样的大语言模型" — 关注 JEPA/世界模型对 LLM 估值体系的潜在冲击
更新 2026-04-22: 世界模型五大门派¶
- JEPA (杨立昆 AMI $10.3亿): 表征空间预测, V-JEPA 2 仅62h数据实现零样本
- 空间智能 (李飞飞 World Labs $10亿): Marble 可编辑3D, 擅长重建但不擅长预测
- 学习型仿真 (DeepMind Genie 3/DreamerV4): 虚拟环境训练, Minecraft挖钻石数据量1/100
- 基础设施 (NVIDIA Cosmos): 卖铲子逻辑, 小鹏/Figure AI 已使用
- 主动推断 (Verses/AXIOM): 贝叶斯推理+对象中心化, Atari超DreamerV3步数⅛