高德 ABot 全栈具身智能体系¶
来源: 机器之心 (2026-04-20) 日期: 2026-04-20 原始文件: wechat/机器之心/20260420_内存不够用这件事,可能要持续到2030年.md (⚠️ 文件名错位,实际内容为高德 ABot) URL: https://www.jiqizhixin.com/articles/e1df4898-156e-449e-a612-9e2c89c9aadb
核心摘要¶
阿里旗下高德在 2026 北京亦庄机器人半程马拉松上首次公开全栈具身智能技术体系 ABot,并推出四足机器人"高德途途"完成开放环境导盲任务。这是阿里在具身智能赛道从模型层到整机层的全栈布局。
ABot 三层架构¶
数据层:ABot-World 世界模型¶
- 基于自有地图与脱敏数据 + 3DGS 厘米级重建
- 累计生产 万级 3D 场景、百万级推理数据、千万级训练轨迹,覆盖 99% 典型生活场景
- ABot-PhysWorld: 首个关注物理合规性的世界模型子工作
- 评测: WorldScore/WorldArena/AGIbot/PBench 等全部 SOTA,力压英伟达 Cosmos、谷歌 Veo、OpenAI Sora 2
模型层:ABot-N0 + ABot-M0¶
ABot-N0 (导航基座模型): - 业内首个面向具身导航的流强化学习框架 - 统一多模态编码器 + Task-Conditional Dual-Head (推理/动作分离) + 流匹配动作专家 - 一对多处理 5 类导航任务: Point-Goal, Object-Goal, Instruction-Following, Person-Following, POI-Goal - 数据引擎: 7802 个高保真 3D 场景, 1690 万条专家轨迹, 500 万条推理样本 - 7 项国际权威基准全部 SOTA (CityWalker, SocNav, R2R-CE 等) - SocialNav (社会化导航) 入选 CVPR Oral
ABot-M0 (操作基座模型): - UniACT 数据集: 9500+ 小时, 600 万+ 轨迹, 20+ 种具身形态 (最大开源异构数据集) - 动作流形学习 (AML) 替代扩散式生成 → 推理步骤更少、更稳定 - 双路感知: VLM 语义理解 + 3D 空间信息 (VGGT/Qwen-Image-Edit) - Libero-Plus 任务成功率 80.5% (比标杆 +30pp)
Agent 层:ABot-Claw¶
- Vision-Spatial 双中心跨具身共享记忆系统
- 四层结构: 图像语义 → 几何地图 → 物体拓扑 → 地点锚定
- 闭环反思与自我纠错 (三级自适应决策)
- 新设备接入即继承已有认知 → 从"一机一图"到"共享世界记忆"
Alpha 含义¶
- 阿里 (BABA/9988.HK) 具身智能全栈布局: 不同于纯模型公司或纯硬件公司,高德利用地图数据天然优势构建了"空间数据→世界模型→导航/操作基座→Agent"全链条
- 亦庄马拉松导盲演示是商业化信号: 开放环境、全自主、无预设路线 — 已从实验室演示走向真实场景
- 与现有玩家对比: 星动纪元/灵初/智在无界专注模型层,宇树/智元专注硬件层,高德是唯一拥有"地图+数据+模型+Agent"全栈的玩家
- 数据壁垒极高: 7802 个 3D 场景 + 1690 万条轨迹 — 依托高德长期地图积累,新进入者难以复制
- ABot-N0/M0 架构创新值得跟踪: Dual-Head 设计、流匹配动作生成、AML 动作流形学习 — 可能影响 VLA 技术路线
关联页面¶
- concepts/embodied-ai-supply-chain — 具身机器人产业链
- concepts/ai-model-release-cycle — ABot-N0/M0 属于具身大脑/模型层
- entities/unitree — 宇树/智元等整机厂商 vs 高德全栈路线对比