跳转至

「国家队」下场,德塔智能连续三轮融资超亿元,押注原生人形机器人基础模型

公众号: 机器之心 发布日期: 04月15日 抓取日期: 2026-04-16 URL: https://www.jiqizhixin.com/articles/ab0a6159-3f9b-47c3-a8de-b2c8c319c451


Title: OccuBench 文档宣传: 15个前沿大模型,100个职业场景:谁才是最强AI打工人? | 机器之心

URL Source: https://www.jiqizhixin.com/articles/ab0a6159-3f9b-47c3-a8de-b2c8c319c451

Markdown Content:

OccuBench 文档宣传: 15个前沿大模型,100个职业场景:谁才是最强AI打工人? | 机器之心

机器之心

Image 1: 机器之心

Image 2: 未登录

登录

Image 3: empty_user 去登录

Image 4文章库Image 5PRO会员通讯Image 6SOTA!模型Image 7AI ShortlistImage 8: new-iconImage 9AI 好好用

Image 10: 机器之心

文章库PRO通讯会员SOTA!模型AI ShortlistImage 11: new-icon

AI 好好用

Image 12登录

Image 13: home

Image 14: logo文章库

Image 15: icon

Image 16: no-user登录

OccuBench 文档宣传: 15个前沿大模型,100个职业场景:谁才是最强AI打工人?

0%

Image 17: icon展开列表

2026具身智能数据赛道,卷出了一匹「黑马」

04月15日

觅蜂科技(Maniformer)

Image 18: img

从「片段生成」到「长视频漫游」:OmniRoam探索轨迹可控的长视频生成新范式

04月15日

视频生成

Image 19: img

阿里ATH发布AI开发工具Meoo,可一键开发一键部署

04月15日

Meoo(秒悟)

Image 20: img

构建跨越时空的微观实验室:KIMMDY 仿真器实现秒级生物化学反应的动态模拟

04月15日

AI for Science

Image 21: img

实测参考生之王Vidu Q3:这已经不叫AI生成了,这叫AI驱动整个剧组

04月15日

参考生视频

Image 22: img

刚刚,李飞飞世界模型开源了个渲染神器

04月15日

Spark 2.0

Image 23: img

北大联合Llama-Factory推出DataFlex:工业级数据动态训练系统

04月15日

DataFlex

Image 24: img

离谱!我的新上班搭子,居然是个超靠谱的AI

04月15日

TuriX Superpower

Image 25: img

昨天,英伟达开源个量子AI,拉爆美股量子计算概念

04月15日

量子计算

Image 26: img

可用即脆弱?VENOM击穿纵向联邦学习

04月15日

CVPR 2026

Image 27: img

腾讯轻量云独家上线Hermes Agent应用模板 AI智能体云端部署一云搞定

04月15日

Image 28: img

OccuBench 文档宣传: 15个前沿大模型,100个职业场景:谁才是最强AI打工人?

04月15日

OccuBench

Image 29: img

「国家队」下场,德塔智能连续三轮融资超亿元,押注原生人形机器人基础模型

04月15日

具身智能

Image 30: img

OpenAI也搞「Mythos」?刚刚,网络安全版GPT-5.4-Cyber亮相

04月15日

GPT-5.4-Cyber

Image 31: img

速来!巴西不仅有足球,也有蚂蚁的ICLR 2026学术派对

04月14日

蚂蚁集团

Image 32: img

数学的上帝粒子!一个运算符能导出所有基本函数

04月14日

EML

Image 33: img

迎接智能体的「觉醒时刻」:EverOS全球公测开启Agent Memory自进化序章

04月14日

EverOS

Image 34: img

写Verilog、调CUDA,总翻车?工业代码大模型开始学会「先想后写」了

04月14日

北京航空航天大学

Image 35: img

火山引擎:Seedance 2.0 API 服务全面开放

04月14日

火山引擎

Image 36: img

目标更重要?国内公司超越Generalist,进化到动作中心世界模型

04月14日

极佳世界

Image 37: img

Image 38: avatar

新闻资讯 原创

13小时前

OccuBench 文档宣传: 15个前沿大模型,100个职业场景:谁才是最强AI打工人?

通义千问 × 港中文联合发布OccuBench,首次用"语言世界模型"系统评测AI Agent的真实职业能力

GPT-5.2能写代码、能刷网页、能聊天。但如果让它去做急诊分诊呢?或者管核电站报警、处理海关报关呢?

答案是不知道,因为根本没法测。

WebArena测网页操作,SWE-bench测代码修复,OSWorld测桌面任务。这些基准加在一起,覆盖的也不过是浏览器、代码编辑器、操作系统这几个领域。而真实世界中绝大多数高价值职业工作,压根没有可以用来测试的公开环境:急诊室没有开源API,核电站不会给你搭沙箱,海关系统更不可能开放权限。

核心思路:让大模型来模拟环境

通义千问团队(Qwen Team)和香港中文大学的研究者想了个办法:既然没有真实环境,那就让大模型模拟一个。

给LLM一份环境配置(任务场景描述、工具定义和初始状态),它就能变成一个有状态的、可交互的模拟环境。研究者将其称为语言世界模型(Language World Model, LWM)

举个例子:你告诉LLM "你现在是一个急诊科信息系统,有3个检查室、5个候诊患者,支持分诊、转运、下医嘱等操作",它就真的能扮演这个系统, 根据Agent的每一步操作,维护内部状态并返回合理的响应。

通过这样做,环境的构建从工程问题变成了配置问题,不用写后端代码,不用搭基础设施,只要LLM能理解这个领域就行。

基于这个思路,研究者构建了 OccuBench,一个覆盖100个职业场景、10大行业、65个细分领域、382个评测实例的Agent评测基准。Bench当中的任务平均包含5.5个专业工具,需要Agent调用约16.2次工具才能完成。Image 39 不只是模拟,还能注入故障

真实生产环境里,API会超时,数据会截断,服务会降级,这些都是常态。但现有的Agent评测基本都是在理想环境下跑的。

基于LWM的agent 评测有一个独特优势:环境行为完全由提示词控制。 只需要修改几句提示词,就能精确注入各种故障:

Image 40

所有故障都是暂态的,重试就能恢复。关键在于Agent能不能意识到出了问题,然后主动重试。这考验了agent的自主性,影响了agent能否在没有人工干预的情况下独立完成长程任务。

15个模型综合评价,几个值得注意的结果

研究者评测了15个前沿模型,覆盖8大模型家族:GPT-5.2、Claude全系列(4 / 4.5 / 4.6,含Opus和Sonnet)、Gemini 3.1 Pro / Flash-Lite、DeepSeek V3.2、Kimi K2.5、MiniMax M2.7、GLM-5、Qwen 3.5 Plus / Flash。

发现一:没有全能选手

GPT-5.2以总分79.6%排名第一,在科研领域更是高达94%。但看电商消费?只有67%,被Qwen 3.5 Plus(81%)甩开14个百分点

Gemini 3.1 Pro在教育领域以84%拿下第一,Claude Opus 4.6在交通运输以77%称王,Qwen 3.5 Plus则在医疗健康和电商消费双双拿到81%的行业最高分。

每个模型都有自己擅长和不擅长的行业。 这启示我们,在实际生产中,选Agent不能只看总分,还得看你的具体场景。

Image 41 发现二:隐式故障比显式故障难对付得多

显式故障(API报错、超时)相对好处理, Agent看到报错,知道该重试就行了。

隐式故障就不一样了。在干净环境下,模型平均得分67.5%。遇到显式故障掉到62.6%,遇到隐式故障则降到53.4%,比显式故障低了9.2个百分点。拿Claude Opus 4.6举例:显式故障下只掉了3.4%(71.5%→68.1%),但隐式故障下直接掉了17.6%(71.5%→53.9%)。原因其实也很简单:数据截断了,但返回格式完全正确,没有报错信号,Agent不知道自己拿到的数据是残缺的。

9个测试模型中,有4个在隐式故障(E2)下的表现甚至比混合故障(E3)更差, 隐式故障比显式+隐式一起来还难对付。

Image 42

发现三:Scaling定律依然有效

我们还发现,更大的模型、更新的版本、更深的思考,在OccuBench上全部带来了稳定提升:

  • 模型规模:Gemini Pro比Flash-Lite高11.0%,Qwen Plus比Flash高10.2%
  • 代际迭代:Claude Opus从v4到v4.6,总提升10.2个百分点(61.3%→71.5%)
  • 推理深度:GPT-5.2关掉推理只有54.7%,开到最高推理强度则达到了82.2%的分数,差了27.5个百分点

Image 43

Image 44

Image 45

发现四:做Agent厉害 ≠ 当环境模拟器靠谱

研究者还做了一个交叉实验:让不同模型分别充当Agent和环境模拟器,看结果会怎么变。

GPT-5.2当Agent是第一名(79.6%),但当它反过来充当环境模拟器时, 所有Agent的平均分只剩29.3%,还不到用Gemini Flash当模拟器时(67.9%)的一半。

研究者扒了失败案例,发现GPT-5.2当模拟器时存在三种典型问题:

  • 状态虚构:急诊分诊任务中,凭空多出两个不存在的检查室,Agent被误导选错了房间
  • 实体遗漏:工单派发任务中,把关键的数据库专家从名册里吞掉了,Agent无人可派
  • 规则发明:退货任务中,自己编了一条 "退货窗口已过期" 的规则,但是任务里根本没这条限制

相比之下,Qwen 3.5 Plus作为模拟器与Gemini Flash的排名的一致性达到了85.7%(28对成对排名比较中,24对完全相同),前三名完全吻合。

这启示我们,做agent和做环境模拟器,看起来是两种不太一样的能力。这个结果对所有用LLM模拟环境来做评测/训练的方案来说,都值得参考。

几个具体案例

案例一:末端配送: 你会先充电吗?

任务:找到编号最大的医疗包裹MED-615,送到指定地址,全程电池不能低于15%。

Claude Opus 4.6:查库存→找到MED-615→看了眼电量28%,觉得不够→先充满电→出发,到达时还剩82%→送达 ->Success

DeepSeek V3.2:查库存→找到MED-615→直接就走了→到达时电量12.5%→违反15%安全线 ->Fail

它们的区别就在于出发前有没有看一眼电量够不够, 有没有时刻牢记问题中的约束。

案例二:房产估值: 你能发现数据被截断了吗? 任务:评估一栋15个单元的物业,计算DSCR(偿债覆盖率)是否达到1.20x的贷款门槛。环境悄悄只返回了2个单元的数据,没有任何报错。

Claude Opus 4.6:“等等,15个单元怎么只返回了2个?”→重新请求→拿到完整数据→算出DSCR 1.19x,不达标 ->Success

Kimi K2.5:也重试了一次,但故障还在→直接假设15个单元都跟这2个一样→算出1.72x,达标→实际上这栋楼根本不合格 ->Fail

就因为数据截断,两个模型得出了完全相反的财务结论。放在真实金融场景里,这种错误的代价是很大的!

案例三:公交调度: 故障面前,谁能坚持到底?

任务:在显式故障(E1)环境下恢复一条公交线路的时刻表。

Claude Opus 4.6:12步操作中遇到了4次错误(超时、500),每次都坚持重试→最终完成全部调度 ->Success

Kimi K2.5:第一次遇到错误就停了→只完成了2步操作→任务失败 ->Fail

同样的故障率,一个坚持了12步走完了,另一个第2步就放弃了。

关于OccuBench

OccuBench覆盖10大行业: 农业与环境、商务与企业、电商与消费、教育与文化、医疗与生命科学、工业与工程、公共服务与治理、科学与研究、技术与IT、交通与物流。从行业难度来看,商务与企业(70.1%)和公共服务(69.4%)相对容易,而交通与物流(56.2%)和教育与文化(57.6%)是最具挑战性的行业。

OccuBench完整开源:382个评测任务 + 100个场景的环境配置 + 全部参考实现代码。

  • 论文:https://arxiv.org/abs/2604.10866
  • 项目主页:https://gregxmhu.github.io/OccuBench-website/
  • 代码:https://github.com/GregxmHu/OccuBench
  • 数据:https://huggingface.co/datasets/gregH/OccuBench