世界模型 (World Models)¶

AI 已经"读完了万卷书"，接下来要"行千里路"。世界模型是 AI 理解物理世界的关键路径。

杨立昆: "大语言模型在通往超级智能的路上是条死胡同。" — 限定条件是实现 AGI。

为什么是世界模型?¶

LLM 的瓶颈: - 训练数据是互联网文本，而真实世界是三维、连续、充满物理规律的 - LLM 能"描述"苹果落地，但不一定"理解"重力 — 是在背课文，不是理解 - 幻觉、推理能力、多模态理解仍是硬伤，边际收益递减

世界模型的驱动力: 1. 具身智能崛起: 人形机器人/自动驾驶/工业自动化需要 AI 与物理世界交互 2. 高质量物理交互数据稀缺且昂贵: 世界模型可在仿真中生成无限数据 3. 资本需要新故事: LLM 叙事边际效用递减

代表: AMI (杨立昆新公司, 2026春节后成立) / V-JEPA 2

核心思想: 在抽象表征空间 (latent space) 里预测"会发生什么"，而非逐像素预测

"AI 不用记住每片叶子的位置，它只需要知道风会吹落树叶。"

维度	信息
架构	Joint-Embedding Predictive Architecture
代表作	V-JEPA 2 (12 亿参数, 100 万小时无标签视频预训练)
关键能力	仅 62 小时机器人数据实现零样本规划, 陌生环境/物体成功率 65-80%
数据效率	传统方法需数千小时示范 → V-JEPA 2 极致压缩
融资	AMI $10.3 亿种子轮 (欧洲 AI 公司纪录), 2026 春节后
商业化	杨立昆: "商业化产品可能要几年后才能看到"

核心优势: 数据效率极高，抽象表征学习 主要挑战: 商业化周期长

代表: World Labs (李飞飞) / Marble

核心思想: AI 需要对三维世界有显式理解 — 几何结构、深度关系、物体相对位置

JEPA 关心"球会从桌子上滚下去"的逻辑; World Labs 关心"桌子多高、球在什么位置"。

维度	信息
产品	Marble (2025/11): 输入文字/照片/视频/3D 草图 → 输出可编辑 3D 世界
团队	Ben Mildenhall (NeRF 发明者) + Christoph Lassner (3D 图形专家)
融资	$10 亿 (2026/2), NVIDIA/AMD/Autodesk 投资
输出格式	Gaussian Splat / mesh / 视频, 可直接导入 UE/Unity
空间一致性	底层维护真实空间表示, 转身回来世界不变

核心优势: 可编辑 3D, 设计/游戏刚需 主要挑战: 物理动态性弱 — 擅长重建"样子"，对"会发生什么"理解薄弱；走几步后出现视觉变形

代表: DeepMind / Genie 3 / DreamerV4

核心思想: 造出足够真实、可实时交互的虚拟环境，让 AI 在里面练出真本事

维度	信息
Genie 3	输入描述 → 720p/24fps 可交互 3D 环境; 支持对象持久性 (打碎花瓶碎片留在地上)
DreamerV4	纯靠离线数据在 Minecraft 挖到钻石; 数据量仅为 OpenAI VPT 的 1%
对象持久性	从环境持久性→对象持久性, 需每秒多次回溯查询

核心优势: 交互性强，训练成本极低 主要挑战: 像素生成≠物理理解; 目前仅维持几分钟连贯性; 物理模拟不如传统引擎精确

代表: NVIDIA Cosmos

核心逻辑: "你们都在造世界模型? 我来提供造世界模型的工具。"

客户: 小鹏 (自动驾驶仿真)、Figure AI (训练数据生成) 商业逻辑: 免费开放软件锁定硬件生态 → 最终需要 NVIDIA H/Jetson + CUDA

代表: Verses / AXIOM / Karl Friston (自由能原理提出者)

核心思想: 生物系统的本质是不断生成预测 + 采取行动减少预测与现实之间的偏差

强化学习 = 逐利 (胡萝卜引导的驴子); 主动推断 = 避险 (修正心理地图的旅行者)

维度	信息
框架	AXIOM: 对象中心化 + 贝叶斯推理 (消息传递, 非梯度下降)
关键特性	对象由离散属性+关系组成, 更接近人类认知方式
性能	Atari GameWorld 10K 超 DreamerV3, 训练数据远少, 步数仅 ⅛
独特性	不需要预训练, 陌生物体实时重新规划
商业化	Genius (金融/机器人/智慧城市), 被 Gartner 写入研报

核心优势: 实时适应，可解释性强 主要挑战: 生态兼容性差，短期内很难成为主流

世界模型是具身机器人产业链中大脑层的关键组件:

世界模型 (理解物理规律 + 空间结构 + 因果推理)
  ↓
具身大脑 (VLA / 世界动作模型 WAM)
  ↓
机器人本体 (执行)

来源: sources/ifanr-world-models-five-factions-202604 (爱范儿)