跳转至

世界模型 (World Models)

AI 已经"读完了万卷书",接下来要"行千里路"。世界模型是 AI 理解物理世界的关键路径。

杨立昆: "大语言模型在通往超级智能的路上是条死胡同。" — 限定条件是实现 AGI。

为什么是世界模型?

LLM 的瓶颈: - 训练数据是互联网文本,而真实世界是三维、连续、充满物理规律的 - LLM 能"描述"苹果落地,但不一定"理解"重力 — 是在背课文,不是理解 - 幻觉、推理能力、多模态理解仍是硬伤,边际收益递减

世界模型的驱动力: 1. 具身智能崛起: 人形机器人/自动驾驶/工业自动化需要 AI 与物理世界交互 2. 高质量物理交互数据稀缺且昂贵: 世界模型可在仿真中生成无限数据 3. 资本需要新故事: LLM 叙事边际效用递减

五大门派

1. JEPA 派 — 杨立昆的「抽象哲学」

代表: AMI (杨立昆新公司, 2026春节后成立) / V-JEPA 2

核心思想: 在抽象表征空间 (latent space) 里预测"会发生什么",而非逐像素预测

"AI 不用记住每片叶子的位置,它只需要知道风会吹落树叶。"

维度 信息
架构 Joint-Embedding Predictive Architecture
代表作 V-JEPA 2 (12 亿参数, 100 万小时无标签视频预训练)
关键能力 62 小时机器人数据实现零样本规划, 陌生环境/物体成功率 65-80%
数据效率 传统方法需数千小时示范 → V-JEPA 2 极致压缩
融资 AMI $10.3 亿种子轮 (欧洲 AI 公司纪录), 2026 春节后
商业化 杨立昆: "商业化产品可能要几年后才能看到"

核心优势: 数据效率极高,抽象表征学习 主要挑战: 商业化周期长

2. 空间智能派 — 李飞飞的「建筑师」路线

代表: World Labs (李飞飞) / Marble

核心思想: AI 需要对三维世界有显式理解 — 几何结构、深度关系、物体相对位置

JEPA 关心"球会从桌子上滚下去"的逻辑; World Labs 关心"桌子多高、球在什么位置"。

维度 信息
产品 Marble (2025/11): 输入文字/照片/视频/3D 草图 → 输出可编辑 3D 世界
团队 Ben Mildenhall (NeRF 发明者) + Christoph Lassner (3D 图形专家)
融资 $10 亿 (2026/2), NVIDIA/AMD/Autodesk 投资
输出格式 Gaussian Splat / mesh / 视频, 可直接导入 UE/Unity
空间一致性 底层维护真实空间表示, 转身回来世界不变

核心优势: 可编辑 3D, 设计/游戏刚需 主要挑战: 物理动态性弱 — 擅长重建"样子",对"会发生什么"理解薄弱;走几步后出现视觉变形

3. 学习型仿真派 — DeepMind「造梦师」

代表: DeepMind / Genie 3 / DreamerV4

核心思想: 造出足够真实、可实时交互的虚拟环境,让 AI 在里面练出真本事

维度 信息
Genie 3 输入描述 → 720p/24fps 可交互 3D 环境; 支持对象持久性 (打碎花瓶碎片留在地上)
DreamerV4 纯靠离线数据在 Minecraft 挖到钻石; 数据量仅为 OpenAI VPT 的 1%
对象持久性 从环境持久性→对象持久性, 需每秒多次回溯查询

核心优势: 交互性强,训练成本极低 主要挑战: 像素生成≠物理理解; 目前仅维持几分钟连贯性; 物理模拟不如传统引擎精确

4. 基础设施派 — 英伟达「卖铲子」

代表: NVIDIA Cosmos

核心逻辑: "你们都在造世界模型? 我来提供造世界模型的工具。"

组件 功能
Cosmos Curator 14 天处理 2000 万小时视频 (CPU 方案需 3 年+)
Visual Tokenizer 压缩率比业界高 8x, 支持多种视频格式
Cosmos Predict 预测环境未来状态 (v2.5)
Cosmos Transfer 将模拟迁移到真实 (v2)
Cosmos Reason 让机器人做规划 (v2)

客户: 小鹏 (自动驾驶仿真)、Figure AI (训练数据生成) 商业逻辑: 免费开放软件锁定硬件生态 → 最终需要 NVIDIA H/Jetson + CUDA

5. 主动推断派 — 神经科学「异端」

代表: Verses / AXIOM / Karl Friston (自由能原理提出者)

核心思想: 生物系统的本质是不断生成预测 + 采取行动减少预测与现实之间的偏差

强化学习 = 逐利 (胡萝卜引导的驴子); 主动推断 = 避险 (修正心理地图的旅行者)

维度 信息
框架 AXIOM: 对象中心化 + 贝叶斯推理 (消息传递, 非梯度下降)
关键特性 对象由离散属性+关系组成, 更接近人类认知方式
性能 Atari GameWorld 10K 超 DreamerV3, 训练数据远少, 步数仅
独特性 不需要预训练, 陌生物体实时重新规划
商业化 Genius (金融/机器人/智慧城市), 被 Gartner 写入研报

核心优势: 实时适应,可解释性强 主要挑战: 生态兼容性差,短期内很难成为主流

五大门派对比

门派 代表 核心优势 主要挑战
JEPA AMI 数据效率极高,抽象表征 商业化周期长
空间智能 World Labs 可编辑 3D, 设计/游戏刚需 物理动态性弱
学习型仿真 DeepMind 交互性强,训练成本低 像素生成≠物理理解
基础设施 英伟达 全栈平台,生态锁定 依赖硬件销售
主动推断 Verses 实时适应,可解释性强 生态兼容性差

与具身智能的关系

世界模型是具身机器人产业链大脑层的关键组件:

世界模型 (理解物理规律 + 空间结构 + 因果推理)
具身大脑 (VLA / 世界动作模型 WAM)
机器人本体 (执行)

关键关联

  • 具身机器人产业链 中的 WAM (世界动作模型) 路线 — 英伟达 DreamZero/星动纪元 Ctrl-World
  • 阿里 Wan2.½.2 是行业基石 — 全球机器人视觉基座都在用的开源视频生成模型
  • 高德 ABot-World 世界模型 — 详见 具身机器人产业链 04-20 更新

Alpha 含义

  1. AMI (\(10.3亿) / World Labs (\)10亿): 世界模型赛道融资热度仅次于 LLM,资本押注 LLM 后的下一个范式
  2. NVIDIA Cosmos: 巩固"卖铲子"地位,无论哪条路线胜出都需要 NVIDIA 基础设施
  3. DeepMind Genie 3 + DreamerV4: 如果仿真→真实泛化被证明可行,将颠覆机器人训练范式
  4. 融合是唯一出路: 五条路线不是非此即彼,而是同一块拼图的不同碎片
  5. 时间窗口: 杨立昆断言"五年后没有人会再用今天这样的大语言模型" — 关注 JEPA/世界模型对 LLM 估值体系的潜在冲击

更新 2026-04-22: 世界模型五大门派

来源: sources/ifanr-world-models-five-factions-202604 (爱范儿)

  • JEPA (杨立昆 AMI $10.3亿): 表征空间预测, V-JEPA 2 仅62h数据实现零样本
  • 空间智能 (李飞飞 World Labs $10亿): Marble 可编辑3D, 擅长重建但不擅长预测
  • 学习型仿真 (DeepMind Genie 3/DreamerV4): 虚拟环境训练, Minecraft挖钻石数据量1/100
  • 基础设施 (NVIDIA Cosmos): 卖铲子逻辑, 小鹏/Figure AI 已使用
  • 主动推断 (Verses/AXIOM): 贝叶斯推理+对象中心化, Atari超DreamerV3步数⅛