晚点具身季报 26Q1¶

2026 Q1 全球具身智能季度总结, 播客文字整理。嘉宾: Alphaist Partners 陈哲 (Peter), 前五源资本机器人/硬件科技投资人。

Q1 Top 5 进展¶

宇树春晚表演 — 20+ 台机器人同步功夫表演, 一致性验证量产能力
Sharpa 灵巧手 CES demo — 22 自由度, 自主组装风车, 触觉反馈闭环
英伟达世界模型突破 — DreamZero + DreamDojo (WAM 世界动作模型)
银河通用网球 demo — 实时感知+全身运控闭环, 球速 100km/h 级响应
波士顿动力电动 Atlas — 模块化设计, 360° 旋转, 走向量产

宇树科技深度分析¶

财务亮点 (2025 前三季)¶

营收: 17 亿元 (YoY +335%), 人形占比从 <2% (2023) → >50% (2025 Q3)
人形毛利率: 62.9% — 主要卖给科研市场, 价格敏感度低
出货: 5500+ 人形, 1.8 万+ 四足
研发费用: ~9000 万/年 (7.7% 费用率 vs 行业 27.92%)
IPO: 420 亿市值, 募资 42 亿, 超 20 亿用于具身大模型

G1 成功密码¶

精准定位: 专为科教市场设计, 1.3m 身高 (vs H1 1.8m), 重量轻, 续航好
一致性壁垒: 20+ 台同步表演, 硬件质量控制+运控算法稳定性
供应链积累: 几万台四足 → 百万台电机量产流程 → 12-24 个月硬件壁垒
AI 短板: 核心管理层无深度学习背景, 计划募资一半投入大脑研究

2026 出货预期¶

宇树目标 1-2 万台 人形 (2025 的 2-3x)
表演/租赁需求爆发 ("擎天租" 估值已达 30 亿)
瓶颈在产能, 不在需求

中美头部公司对标¶

中国第一梯队¶

公司	Q1 亮点
宇树	春晚+招股书, G1 科研市场垄断, 2026 目标 1-2 万台
智元	全球 39% 份额, 新全身运控工作
银河通用	网球 demo (实时全身闭环), 春节动捕+RL 训练
星动纪元	Benjie's Olympic 三项第一, ERA-42 模型

美国头部¶

公司	Q1 亮点	风险/信号
Tesla Optimus	Gen 3 设计定型, 但延期到 6 月, 量产目标 1 万台	绳驱灵巧手工程挑战巨大, 马斯克强势路线选择
Figure AI	全身运控 demo 丝滑, Helix 三层架构	创始人 Brett Adcock 连续创业+快速退出历史, 浮夸风格
Boston Dynamics	电动 Atlas 量产版, 与 Google DeepMind 合作	现代汽车股东, 制造依赖韩国
Physical Intelligence	π0.6 + 长期记忆新思路 (外挂上下文)	融资近 20 亿美金, 但在 Benjie's Olympic 被星动纪元击败

关键认知转变: 人形为什么是对的?¶

人形只需要 40×60cm 站立空间, 轮式 AGV+机械臂需要 ~1 吨自重防倾覆
人形 60-80kg vs 轮式复合机器人 ~1000kg, 重量差 10x+, 成本/能耗差巨大
四轮四转轮式底盘需要至少 8 个主动电机, 不比双足简单
人形可以下探地面到触达 2.3m 高度, 搬运 10-20kg

Sharpa 灵巧手 — 被低估的创业机会¶

技术突破¶

22 自由度 = 人手自由度
CES 演示: 自主组装风车长程任务
3 层架构: System 2 (语言规划) → System 1 (视觉控制) → System 0 (触觉精细控制)
触觉信号是完成精细操作的关键, 但主流 VLA/世界模型训练数据完全没有触觉

市场机会¶

未来 12-18 个月, 灵巧手市场竞争激烈, 争夺 "默认选择" 生态位
类比: 宇树 G1 在四足/人形的生态位
海外研究人员过去用星动纪元 12 自由度手, 最近 3-4 个月转向 Sharpa
Sharpa 创始人来自禾赛科技 (三位创始人)
目标: 通用机器人公司, 不只是手部供应商

Alpha: 灵巧手 = 下一个 G1 生态位¶

需要极大克制和专注打磨产品, 成为中美所有灵巧手研究者的首选方案。这是一个被低估的创业机会。

英伟达 WAM (世界动作模型) — 比 VLA 天花板更高¶

DreamDojo + DreamZero¶

DreamDojo: 视频世界模型仿真器, 基于当前图像预测未来
DreamZero: 通过视频生成, 将任务/环境转化为机器人策略/动作
底层打破 VLA 的 "图片→动作" 映射, 引入因果推理和时间感

VLA vs 世界模型¶

维度	VLA	世界模型 (WAM)
Backbone	文本/语言	视频/视觉
推理方式	行为克隆+语义映射	因果推理+物理预测
时间感	无 (单帧→动作)	有 (预测未来状态)
泛化能力	差 (依赖数据分布)	强 (学习动作规律)
算力需求	中等	极高 (视频生成)

WAM 的挑战¶

速度: DreamZero 仅 7Hz (但可优化)
算力: 依赖 SOTA 视频生成模型, 创业公司缺算力试错
触觉缺失: 视频不包含触觉信号, 触觉融合是未来重点
开源依赖: 当前全球机器人视觉模型基座都用 阿里 Wan2.½.2 (最后一个开源视频生成模型)

具身智能算力格局¶

端侧芯片: 从云到端的统治力递减¶

层级	英伟达地位	主要玩家
云端 GPU	压倒性统治	NVDA 绝对垄断
车载芯片	40% 份额	NVDA + 地平线各占 ~40%
端侧机器人	几乎没有份额	地瓜机器人 (地平线分拆), 全志, 瑞芯微

核心逻辑: 创新者的窘境¶

Jetson 系列算力不够, 定位尴尬
车载芯片 (Orin/地平线) 才是默认首选 — 算力需求不低于自动驾驶
量产机器人市场对中国公司完全开放
Tesla 自研芯片: Optimus + FSD 共用统一架构
历史类比: Intel 拒绝 iPhone 芯片 → ARM 崛起

芯片市场终局¶

复杂芯片市场最终 2 家主力供应商 (80/20 份额)
具身芯片和整机厂商都会经历惨烈淘汰赛

数据金字塔¶

        遥操作数据 (最贵, 最少, 质量最高)
              ↓
      类机器人架构 (UMI/DexUMI)
              ↓
    Ego-centric 第一视角 (NVIDIA EgoScale 2 万小时)
              ↓
    互联网/YouTube 视频 (最多, 质量最低, 迁移 gap 大)

关键发现¶

仿真数据质量介于 ego-centric 和 UMI 之间
百万小时真实数据 ≠ 足够: 清洗/标注/规模化需要很长时间
只要技术路线明确, 中国公司跟进速度极快

行业泡沫警示¶

估值狂热¶

中国估值 >100 亿人民币的具身公司 >20 家
2023-24 大模型最狂热时, 破百亿的大模型公司仅 4-5 家
最头部宇树收入仅 ~2 亿美元, 但 20+ 家百亿估值公司
需要时间吸收泡沫并完成淘汰

确定性事件 (未来 1-2 季度)¶

世界模型竞赛: 谁能拿出显著超越 PI VLA 的成果
灵巧手研究爆发: 触觉信号+高自由度手的研究成果
北京亦庄机器人比赛: 几乎所有头部公司备战, 可能成为"机器人 F1"

终局思考¶

人形 vs 多形态?¶

陈哲从"怀疑人形"→"答案模糊": 资源/大脑/算力都在涌入, 技术突破可能非线性
人形机器人市场集中度会非常高 (类比手机)
通用机器人需要核心能力积累 (光机电/精密工程/量产)
强于算法的公司补硬件短板更难

中国 vs 美国¶

"在具身智能领域, 我们不仅仅是没有落后, 甚至有可能处于领先状态。"

硬件 (本体+灵巧手): 中国领先世界
大脑 (AI 模型): 美国在顶尖人才/算力/数据上有优势
但软硬结合越紧密, 中国供应链优势越放大

Alpha 汇总¶

灵巧手是被低估的创业机会 — Sharpa 路线, 22 自由度+触觉, 争夺默认选择生态位
端侧芯片市场开放 — 地瓜机器人/地平线受益, 英伟达统治力递减
世界模型 vs VLA 路线竞争 — 关注谁能拿出显著超越对方的 demo
北京亦庄比赛 — 高密度竞争催生技术突破
泡沫需要消化 — 20+ 家百亿估值公司 vs 仅 2 亿美元收入的头部
Tesla Gen 3 延期 — 绳驱方案工程挑战, 给中国公司追赶窗口
Wan2.½.2 是行业基石 — 阿里开源视频模型, 所有机器人视觉基座都在用