跳转至

晚点具身季报 26Q1

2026 Q1 全球具身智能季度总结, 播客文字整理。嘉宾: Alphaist Partners 陈哲 (Peter), 前五源资本机器人/硬件科技投资人。

Q1 Top 5 进展

  1. 宇树春晚表演 — 20+ 台机器人同步功夫表演, 一致性验证量产能力
  2. Sharpa 灵巧手 CES demo — 22 自由度, 自主组装风车, 触觉反馈闭环
  3. 英伟达世界模型突破 — DreamZero + DreamDojo (WAM 世界动作模型)
  4. 银河通用网球 demo — 实时感知+全身运控闭环, 球速 100km/h 级响应
  5. 波士顿动力电动 Atlas — 模块化设计, 360° 旋转, 走向量产

宇树科技深度分析

财务亮点 (2025 前三季)

  • 营收: 17 亿元 (YoY +335%), 人形占比从 <2% (2023) → >50% (2025 Q3)
  • 人形毛利率: 62.9% — 主要卖给科研市场, 价格敏感度低
  • 出货: 5500+ 人形, 1.8 万+ 四足
  • 研发费用: ~9000 万/年 (7.7% 费用率 vs 行业 27.92%)
  • IPO: 420 亿市值, 募资 42 亿, 超 20 亿用于具身大模型

G1 成功密码

  • 精准定位: 专为科教市场设计, 1.3m 身高 (vs H1 1.8m), 重量轻, 续航好
  • 一致性壁垒: 20+ 台同步表演, 硬件质量控制+运控算法稳定性
  • 供应链积累: 几万台四足 → 百万台电机量产流程 → 12-24 个月硬件壁垒
  • AI 短板: 核心管理层无深度学习背景, 计划募资一半投入大脑研究

2026 出货预期

  • 宇树目标 1-2 万台 人形 (2025 的 2-3x)
  • 表演/租赁需求爆发 ("擎天租" 估值已达 30 亿)
  • 瓶颈在产能, 不在需求

中美头部公司对标

中国第一梯队

公司 Q1 亮点
宇树 春晚+招股书, G1 科研市场垄断, 2026 目标 1-2 万台
智元 全球 39% 份额, 新全身运控工作
银河通用 网球 demo (实时全身闭环), 春节动捕+RL 训练
星动纪元 Benjie's Olympic 三项第一, ERA-42 模型

美国头部

公司 Q1 亮点 风险/信号
Tesla Optimus Gen 3 设计定型, 但延期到 6 月, 量产目标 1 万台 绳驱灵巧手工程挑战巨大, 马斯克强势路线选择
Figure AI 全身运控 demo 丝滑, Helix 三层架构 创始人 Brett Adcock 连续创业+快速退出历史, 浮夸风格
Boston Dynamics 电动 Atlas 量产版, 与 Google DeepMind 合作 现代汽车股东, 制造依赖韩国
Physical Intelligence π0.6 + 长期记忆新思路 (外挂上下文) 融资近 20 亿美金, 但在 Benjie's Olympic 被星动纪元击败

关键认知转变: 人形为什么是对的?

  • 人形只需要 40×60cm 站立空间, 轮式 AGV+机械臂需要 ~1 吨自重防倾覆
  • 人形 60-80kg vs 轮式复合机器人 ~1000kg, 重量差 10x+, 成本/能耗差巨大
  • 四轮四转轮式底盘需要至少 8 个主动电机, 不比双足简单
  • 人形可以下探地面到触达 2.3m 高度, 搬运 10-20kg

Sharpa 灵巧手 — 被低估的创业机会

技术突破

  • 22 自由度 = 人手自由度
  • CES 演示: 自主组装风车长程任务
  • 3 层架构: System 2 (语言规划) → System 1 (视觉控制) → System 0 (触觉精细控制)
  • 触觉信号是完成精细操作的关键, 但主流 VLA/世界模型训练数据完全没有触觉

市场机会

  • 未来 12-18 个月, 灵巧手市场竞争激烈, 争夺 "默认选择" 生态位
  • 类比: 宇树 G1 在四足/人形的生态位
  • 海外研究人员过去用星动纪元 12 自由度手, 最近 3-4 个月转向 Sharpa
  • Sharpa 创始人来自禾赛科技 (三位创始人)
  • 目标: 通用机器人公司, 不只是手部供应商

Alpha: 灵巧手 = 下一个 G1 生态位

需要极大克制和专注打磨产品, 成为中美所有灵巧手研究者的首选方案。这是一个被低估的创业机会

英伟达 WAM (世界动作模型) — 比 VLA 天花板更高

DreamDojo + DreamZero

  • DreamDojo: 视频世界模型仿真器, 基于当前图像预测未来
  • DreamZero: 通过视频生成, 将任务/环境转化为机器人策略/动作
  • 底层打破 VLA 的 "图片→动作" 映射, 引入因果推理时间感

VLA vs 世界模型

维度 VLA 世界模型 (WAM)
Backbone 文本/语言 视频/视觉
推理方式 行为克隆+语义映射 因果推理+物理预测
时间感 无 (单帧→动作) 有 (预测未来状态)
泛化能力 差 (依赖数据分布) 强 (学习动作规律)
算力需求 中等 极高 (视频生成)

WAM 的挑战

  • 速度: DreamZero 仅 7Hz (但可优化)
  • 算力: 依赖 SOTA 视频生成模型, 创业公司缺算力试错
  • 触觉缺失: 视频不包含触觉信号, 触觉融合是未来重点
  • 开源依赖: 当前全球机器人视觉模型基座都用 阿里 Wan2.½.2 (最后一个开源视频生成模型)

具身智能算力格局

端侧芯片: 从云到端的统治力递减

层级 英伟达地位 主要玩家
云端 GPU 压倒性统治 NVDA 绝对垄断
车载芯片 40% 份额 NVDA + 地平线 各占 ~40%
端侧机器人 几乎没有份额 地瓜机器人 (地平线分拆), 全志, 瑞芯微

核心逻辑: 创新者的窘境

  • Jetson 系列算力不够, 定位尴尬
  • 车载芯片 (Orin/地平线) 才是默认首选 — 算力需求不低于自动驾驶
  • 量产机器人市场对中国公司完全开放
  • Tesla 自研芯片: Optimus + FSD 共用统一架构
  • 历史类比: Intel 拒绝 iPhone 芯片 → ARM 崛起

芯片市场终局

  • 复杂芯片市场最终 2 家主力供应商 (80/20 份额)
  • 具身芯片和整机厂商都会经历惨烈淘汰赛

数据金字塔

        遥操作数据 (最贵, 最少, 质量最高)
      类机器人架构 (UMI/DexUMI)
    Ego-centric 第一视角 (NVIDIA EgoScale 2 万小时)
    互联网/YouTube 视频 (最多, 质量最低, 迁移 gap 大)

关键发现

  • 仿真数据质量介于 ego-centric 和 UMI 之间
  • 百万小时真实数据 ≠ 足够: 清洗/标注/规模化需要很长时间
  • 只要技术路线明确, 中国公司跟进速度极快

行业泡沫警示

估值狂热

  • 中国估值 >100 亿人民币的具身公司 >20 家
  • 2023-24 大模型最狂热时, 破百亿的大模型公司仅 4-5 家
  • 最头部宇树收入仅 ~2 亿美元, 但 20+ 家百亿估值公司
  • 需要时间吸收泡沫并完成淘汰

确定性事件 (未来 1-2 季度)

  1. 世界模型竞赛: 谁能拿出显著超越 PI VLA 的成果
  2. 灵巧手研究爆发: 触觉信号+高自由度手的研究成果
  3. 北京亦庄机器人比赛: 几乎所有头部公司备战, 可能成为"机器人 F1"

终局思考

人形 vs 多形态?

  • 陈哲从"怀疑人形"→"答案模糊": 资源/大脑/算力都在涌入, 技术突破可能非线性
  • 人形机器人市场集中度会非常高 (类比手机)
  • 通用机器人需要核心能力积累 (光机电/精密工程/量产)
  • 强于算法的公司补硬件短板 更难

中国 vs 美国

"在具身智能领域, 我们不仅仅是没有落后, 甚至有可能处于领先状态。"

  • 硬件 (本体+灵巧手): 中国领先世界
  • 大脑 (AI 模型): 美国在顶尖人才/算力/数据上有优势
  • 但软硬结合越紧密, 中国供应链优势越放大

Alpha 汇总

  1. 灵巧手是被低估的创业机会 — Sharpa 路线, 22 自由度+触觉, 争夺默认选择生态位
  2. 端侧芯片市场开放 — 地瓜机器人/地平线受益, 英伟达统治力递减
  3. 世界模型 vs VLA 路线竞争 — 关注谁能拿出显著超越对方的 demo
  4. 北京亦庄比赛 — 高密度竞争催生技术突破
  5. 泡沫需要消化 — 20+ 家百亿估值公司 vs 仅 2 亿美元收入的头部
  6. Tesla Gen 3 延期 — 绳驱方案工程挑战, 给中国公司追赶窗口
  7. Wan2.½.2 是行业基石 — 阿里开源视频模型, 所有机器人视觉基座都在用