晚点具身季报 26Q1
2026 Q1 全球具身智能季度总结, 播客文字整理。嘉宾: Alphaist Partners 陈哲 (Peter), 前五源资本机器人/硬件科技投资人。
Q1 Top 5 进展
- 宇树春晚表演 — 20+ 台机器人同步功夫表演, 一致性验证量产能力
- Sharpa 灵巧手 CES demo — 22 自由度, 自主组装风车, 触觉反馈闭环
- 英伟达世界模型突破 — DreamZero + DreamDojo (WAM 世界动作模型)
- 银河通用网球 demo — 实时感知+全身运控闭环, 球速 100km/h 级响应
- 波士顿动力电动 Atlas — 模块化设计, 360° 旋转, 走向量产
宇树科技深度分析
财务亮点 (2025 前三季)
- 营收: 17 亿元 (YoY +335%), 人形占比从 <2% (2023) → >50% (2025 Q3)
- 人形毛利率: 62.9% — 主要卖给科研市场, 价格敏感度低
- 出货: 5500+ 人形, 1.8 万+ 四足
- 研发费用: ~9000 万/年 (7.7% 费用率 vs 行业 27.92%)
- IPO: 420 亿市值, 募资 42 亿, 超 20 亿用于具身大模型
G1 成功密码
- 精准定位: 专为科教市场设计, 1.3m 身高 (vs H1 1.8m), 重量轻, 续航好
- 一致性壁垒: 20+ 台同步表演, 硬件质量控制+运控算法稳定性
- 供应链积累: 几万台四足 → 百万台电机量产流程 → 12-24 个月硬件壁垒
- AI 短板: 核心管理层无深度学习背景, 计划募资一半投入大脑研究
2026 出货预期
- 宇树目标 1-2 万台 人形 (2025 的 2-3x)
- 表演/租赁需求爆发 ("擎天租" 估值已达 30 亿)
- 瓶颈在产能, 不在需求
中美头部公司对标
中国第一梯队
| 公司 |
Q1 亮点 |
| 宇树 |
春晚+招股书, G1 科研市场垄断, 2026 目标 1-2 万台 |
| 智元 |
全球 39% 份额, 新全身运控工作 |
| 银河通用 |
网球 demo (实时全身闭环), 春节动捕+RL 训练 |
| 星动纪元 |
Benjie's Olympic 三项第一, ERA-42 模型 |
美国头部
| 公司 |
Q1 亮点 |
风险/信号 |
| Tesla Optimus |
Gen 3 设计定型, 但延期到 6 月, 量产目标 1 万台 |
绳驱灵巧手工程挑战巨大, 马斯克强势路线选择 |
| Figure AI |
全身运控 demo 丝滑, Helix 三层架构 |
创始人 Brett Adcock 连续创业+快速退出历史, 浮夸风格 |
| Boston Dynamics |
电动 Atlas 量产版, 与 Google DeepMind 合作 |
现代汽车股东, 制造依赖韩国 |
| Physical Intelligence |
π0.6 + 长期记忆新思路 (外挂上下文) |
融资近 20 亿美金, 但在 Benjie's Olympic 被星动纪元击败 |
关键认知转变: 人形为什么是对的?
- 人形只需要 40×60cm 站立空间, 轮式 AGV+机械臂需要 ~1 吨自重防倾覆
- 人形 60-80kg vs 轮式复合机器人 ~1000kg, 重量差 10x+, 成本/能耗差巨大
- 四轮四转轮式底盘需要至少 8 个主动电机, 不比双足简单
- 人形可以下探地面到触达 2.3m 高度, 搬运 10-20kg
Sharpa 灵巧手 — 被低估的创业机会
技术突破
- 22 自由度 = 人手自由度
- CES 演示: 自主组装风车长程任务
- 3 层架构: System 2 (语言规划) → System 1 (视觉控制) → System 0 (触觉精细控制)
- 触觉信号是完成精细操作的关键, 但主流 VLA/世界模型训练数据完全没有触觉
市场机会
- 未来 12-18 个月, 灵巧手市场竞争激烈, 争夺 "默认选择" 生态位
- 类比: 宇树 G1 在四足/人形的生态位
- 海外研究人员过去用星动纪元 12 自由度手, 最近 3-4 个月转向 Sharpa
- Sharpa 创始人来自禾赛科技 (三位创始人)
- 目标: 通用机器人公司, 不只是手部供应商
Alpha: 灵巧手 = 下一个 G1 生态位
需要极大克制和专注打磨产品, 成为中美所有灵巧手研究者的首选方案。这是一个被低估的创业机会。
英伟达 WAM (世界动作模型) — 比 VLA 天花板更高
DreamDojo + DreamZero
- DreamDojo: 视频世界模型仿真器, 基于当前图像预测未来
- DreamZero: 通过视频生成, 将任务/环境转化为机器人策略/动作
- 底层打破 VLA 的 "图片→动作" 映射, 引入因果推理和时间感
VLA vs 世界模型
| 维度 |
VLA |
世界模型 (WAM) |
| Backbone |
文本/语言 |
视频/视觉 |
| 推理方式 |
行为克隆+语义映射 |
因果推理+物理预测 |
| 时间感 |
无 (单帧→动作) |
有 (预测未来状态) |
| 泛化能力 |
差 (依赖数据分布) |
强 (学习动作规律) |
| 算力需求 |
中等 |
极高 (视频生成) |
WAM 的挑战
- 速度: DreamZero 仅 7Hz (但可优化)
- 算力: 依赖 SOTA 视频生成模型, 创业公司缺算力试错
- 触觉缺失: 视频不包含触觉信号, 触觉融合是未来重点
- 开源依赖: 当前全球机器人视觉模型基座都用 阿里 Wan2.½.2 (最后一个开源视频生成模型)
具身智能算力格局
端侧芯片: 从云到端的统治力递减
| 层级 |
英伟达地位 |
主要玩家 |
| 云端 GPU |
压倒性统治 |
NVDA 绝对垄断 |
| 车载芯片 |
40% 份额 |
NVDA + 地平线 各占 ~40% |
| 端侧机器人 |
几乎没有份额 |
地瓜机器人 (地平线分拆), 全志, 瑞芯微 |
核心逻辑: 创新者的窘境
- Jetson 系列算力不够, 定位尴尬
- 车载芯片 (Orin/地平线) 才是默认首选 — 算力需求不低于自动驾驶
- 量产机器人市场对中国公司完全开放
- Tesla 自研芯片: Optimus + FSD 共用统一架构
- 历史类比: Intel 拒绝 iPhone 芯片 → ARM 崛起
芯片市场终局
- 复杂芯片市场最终 2 家主力供应商 (80/20 份额)
- 具身芯片和整机厂商都会经历惨烈淘汰赛
数据金字塔
遥操作数据 (最贵, 最少, 质量最高)
↓
类机器人架构 (UMI/DexUMI)
↓
Ego-centric 第一视角 (NVIDIA EgoScale 2 万小时)
↓
互联网/YouTube 视频 (最多, 质量最低, 迁移 gap 大)
关键发现
- 仿真数据质量介于 ego-centric 和 UMI 之间
- 百万小时真实数据 ≠ 足够: 清洗/标注/规模化需要很长时间
- 只要技术路线明确, 中国公司跟进速度极快
行业泡沫警示
估值狂热
- 中国估值 >100 亿人民币的具身公司 >20 家
- 2023-24 大模型最狂热时, 破百亿的大模型公司仅 4-5 家
- 最头部宇树收入仅 ~2 亿美元, 但 20+ 家百亿估值公司
- 需要时间吸收泡沫并完成淘汰
确定性事件 (未来 1-2 季度)
- 世界模型竞赛: 谁能拿出显著超越 PI VLA 的成果
- 灵巧手研究爆发: 触觉信号+高自由度手的研究成果
- 北京亦庄机器人比赛: 几乎所有头部公司备战, 可能成为"机器人 F1"
终局思考
人形 vs 多形态?
- 陈哲从"怀疑人形"→"答案模糊": 资源/大脑/算力都在涌入, 技术突破可能非线性
- 人形机器人市场集中度会非常高 (类比手机)
- 通用机器人需要核心能力积累 (光机电/精密工程/量产)
- 强于算法的公司补硬件短板 更难
中国 vs 美国
"在具身智能领域, 我们不仅仅是没有落后, 甚至有可能处于领先状态。"
- 硬件 (本体+灵巧手): 中国领先世界
- 大脑 (AI 模型): 美国在顶尖人才/算力/数据上有优势
- 但软硬结合越紧密, 中国供应链优势越放大
Alpha 汇总
- 灵巧手是被低估的创业机会 — Sharpa 路线, 22 自由度+触觉, 争夺默认选择生态位
- 端侧芯片市场开放 — 地瓜机器人/地平线受益, 英伟达统治力递减
- 世界模型 vs VLA 路线竞争 — 关注谁能拿出显著超越对方的 demo
- 北京亦庄比赛 — 高密度竞争催生技术突破
- 泡沫需要消化 — 20+ 家百亿估值公司 vs 仅 2 亿美元收入的头部
- Tesla Gen 3 延期 — 绳驱方案工程挑战, 给中国公司追赶窗口
- Wan2.½.2 是行业基石 — 阿里开源视频模型, 所有机器人视觉基座都在用