「国家队」下场，德塔智能连续三轮融资超亿元，押注原生人形机器人基础模型¶

公众号: 机器之心 发布日期: 04月15日 抓取日期: 2026-04-16 URL: https://www.jiqizhixin.com/articles/ab0a6159-3f9b-47c3-a8de-b2c8c319c451

Title: OccuBench 文档宣传: 15个前沿大模型，100个职业场景：谁才是最强AI打工人？｜机器之心

URL Source: https://www.jiqizhixin.com/articles/ab0a6159-3f9b-47c3-a8de-b2c8c319c451

Markdown Content:

OccuBench 文档宣传: 15个前沿大模型，100个职业场景：谁才是最强AI打工人？｜机器之心¶

机器之心¶

登录

去登录

文章库 PRO会员通讯 SOTA！模型 AI Shortlist AI 好好用

文章库 PRO通讯会员 SOTA！模型 AI Shortlist

AI 好好用

登录

文章库

Image 16: no-user 登录

OccuBench 文档宣传: 15个前沿大模型，100个职业场景：谁才是最强AI打工人？

0%

展开列表

2026具身智能数据赛道，卷出了一匹「黑马」

04月15日

觅蜂科技（Maniformer）

Image 18: img

从「片段生成」到「长视频漫游」：OmniRoam探索轨迹可控的长视频生成新范式

04月15日

视频生成

Image 19: img

阿里ATH发布AI开发工具Meoo，可一键开发一键部署

04月15日

Meoo（秒悟）

Image 20: img

构建跨越时空的微观实验室：KIMMDY 仿真器实现秒级生物化学反应的动态模拟

04月15日

AI for Science

Image 21: img

实测参考生之王Vidu Q3：这已经不叫AI生成了，这叫AI驱动整个剧组

04月15日

参考生视频

Image 22: img

刚刚，李飞飞世界模型开源了个渲染神器

04月15日

Spark 2.0

Image 23: img

北大联合Llama-Factory推出DataFlex：工业级数据动态训练系统

04月15日

DataFlex

Image 24: img

离谱！我的新上班搭子，居然是个超靠谱的AI

04月15日

TuriX Superpower

Image 25: img

昨天，英伟达开源个量子AI，拉爆美股量子计算概念

04月15日

量子计算

Image 26: img

可用即脆弱？VENOM击穿纵向联邦学习

04月15日

CVPR 2026

Image 27: img

腾讯轻量云独家上线Hermes Agent应用模板 AI智能体云端部署一云搞定

04月15日

Image 28: img

OccuBench 文档宣传: 15个前沿大模型，100个职业场景：谁才是最强AI打工人？

04月15日

OccuBench

Image 29: img

「国家队」下场，德塔智能连续三轮融资超亿元，押注原生人形机器人基础模型

04月15日

具身智能

Image 30: img

OpenAI也搞「Mythos」？刚刚，网络安全版GPT-5.4-Cyber亮相

04月15日

GPT-5.4-Cyber

Image 31: img

速来！巴西不仅有足球，也有蚂蚁的ICLR 2026学术派对

04月14日

蚂蚁集团

Image 32: img

数学的上帝粒子！一个运算符能导出所有基本函数

04月14日

EML

Image 33: img

迎接智能体的「觉醒时刻」：EverOS全球公测开启Agent Memory自进化序章

04月14日

EverOS

Image 34: img

写Verilog、调CUDA，总翻车？工业代码大模型开始学会「先想后写」了

04月14日

北京航空航天大学

Image 35: img

火山引擎：Seedance 2.0 API 服务全面开放

04月14日

火山引擎

Image 36: img

目标更重要？国内公司超越Generalist，进化到动作中心世界模型

04月14日

极佳世界

Image 37: img

新闻资讯原创

13小时前

OccuBench 文档宣传: 15个前沿大模型，100个职业场景：谁才是最强AI打工人？

通义千问 × 港中文联合发布OccuBench，首次用"语言世界模型"系统评测AI Agent的真实职业能力

GPT-5.2能写代码、能刷网页、能聊天。但如果让它去做急诊分诊呢？或者管核电站报警、处理海关报关呢？

答案是不知道，因为根本没法测。

WebArena测网页操作，SWE-bench测代码修复，OSWorld测桌面任务。这些基准加在一起，覆盖的也不过是浏览器、代码编辑器、操作系统这几个领域。而真实世界中绝大多数高价值职业工作，压根没有可以用来测试的公开环境：急诊室没有开源API，核电站不会给你搭沙箱，海关系统更不可能开放权限。

核心思路：让大模型来模拟环境

通义千问团队（Qwen Team）和香港中文大学的研究者想了个办法：既然没有真实环境，那就让大模型模拟一个。

给LLM一份环境配置（任务场景描述、工具定义和初始状态），它就能变成一个有状态的、可交互的模拟环境。研究者将其称为语言世界模型（Language World Model, LWM）。

举个例子：你告诉LLM "你现在是一个急诊科信息系统，有3个检查室、5个候诊患者，支持分诊、转运、下医嘱等操作"，它就真的能扮演这个系统, 根据Agent的每一步操作，维护内部状态并返回合理的响应。

通过这样做，环境的构建从工程问题变成了配置问题，不用写后端代码，不用搭基础设施，只要LLM能理解这个领域就行。

基于这个思路，研究者构建了 OccuBench，一个覆盖100个职业场景、10大行业、65个细分领域、382个评测实例的Agent评测基准。Bench当中的任务平均包含5.5个专业工具，需要Agent调用约16.2次工具才能完成。 不只是模拟，还能注入故障

真实生产环境里，API会超时，数据会截断，服务会降级，这些都是常态。但现有的Agent评测基本都是在理想环境下跑的。

基于LWM的agent 评测有一个独特优势：环境行为完全由提示词控制。 只需要修改几句提示词，就能精确注入各种故障：

所有故障都是暂态的，重试就能恢复。关键在于Agent能不能意识到出了问题，然后主动重试。这考验了agent的自主性，影响了agent能否在没有人工干预的情况下独立完成长程任务。

15个模型综合评价，几个值得注意的结果

研究者评测了15个前沿模型，覆盖8大模型家族：GPT-5.2、Claude全系列（4 / 4.5 / 4.6，含Opus和Sonnet）、Gemini 3.1 Pro / Flash-Lite、DeepSeek V3.2、Kimi K2.5、MiniMax M2.7、GLM-5、Qwen 3.5 Plus / Flash。

发现一：没有全能选手

GPT-5.2以总分79.6%排名第一，在科研领域更是高达94%。但看电商消费？只有67%，被Qwen 3.5 Plus（81%）甩开14个百分点。

Gemini 3.1 Pro在教育领域以84%拿下第一，Claude Opus 4.6在交通运输以77%称王，Qwen 3.5 Plus则在医疗健康和电商消费双双拿到81%的行业最高分。

每个模型都有自己擅长和不擅长的行业。 这启示我们，在实际生产中，选Agent不能只看总分，还得看你的具体场景。

发现二：隐式故障比显式故障难对付得多

显式故障（API报错、超时）相对好处理, Agent看到报错，知道该重试就行了。

隐式故障就不一样了。在干净环境下，模型平均得分67.5%。遇到显式故障掉到62.6%，遇到隐式故障则降到53.4%，比显式故障低了9.2个百分点。拿Claude Opus 4.6举例：显式故障下只掉了3.4%（71.5%→68.1%），但隐式故障下直接掉了17.6%（71.5%→53.9%）。原因其实也很简单：数据截断了，但返回格式完全正确，没有报错信号，Agent不知道自己拿到的数据是残缺的。

9个测试模型中，有4个在隐式故障（E2）下的表现甚至比混合故障（E3）更差, 隐式故障比显式+隐式一起来还难对付。

发现三：Scaling定律依然有效

我们还发现，更大的模型、更新的版本、更深的思考，在OccuBench上全部带来了稳定提升：

模型规模：Gemini Pro比Flash-Lite高11.0%，Qwen Plus比Flash高10.2%
代际迭代：Claude Opus从v4到v4.6，总提升10.2个百分点（61.3%→71.5%）
推理深度：GPT-5.2关掉推理只有54.7%，开到最高推理强度则达到了82.2%的分数，差了27.5个百分点

发现四：做Agent厉害 ≠ 当环境模拟器靠谱

研究者还做了一个交叉实验：让不同模型分别充当Agent和环境模拟器，看结果会怎么变。

GPT-5.2当Agent是第一名（79.6%），但当它反过来充当环境模拟器时, 所有Agent的平均分只剩29.3%，还不到用Gemini Flash当模拟器时（67.9%）的一半。

研究者扒了失败案例，发现GPT-5.2当模拟器时存在三种典型问题：

状态虚构：急诊分诊任务中，凭空多出两个不存在的检查室，Agent被误导选错了房间
实体遗漏：工单派发任务中，把关键的数据库专家从名册里吞掉了，Agent无人可派
规则发明：退货任务中，自己编了一条 "退货窗口已过期" 的规则，但是任务里根本没这条限制

相比之下，Qwen 3.5 Plus作为模拟器与Gemini Flash的排名的一致性达到了85.7%（28对成对排名比较中，24对完全相同），前三名完全吻合。

这启示我们，做agent和做环境模拟器，看起来是两种不太一样的能力。这个结果对所有用LLM模拟环境来做评测/训练的方案来说，都值得参考。

几个具体案例

案例一：末端配送: 你会先充电吗？

任务：找到编号最大的医疗包裹MED-615，送到指定地址，全程电池不能低于15%。

Claude Opus 4.6：查库存→找到MED-615→看了眼电量28%，觉得不够→先充满电→出发，到达时还剩82%→送达 ->Success

DeepSeek V3.2：查库存→找到MED-615→直接就走了→到达时电量12.5%→违反15%安全线 ->Fail

它们的区别就在于出发前有没有看一眼电量够不够, 有没有时刻牢记问题中的约束。

案例二：房产估值: 你能发现数据被截断了吗？ 任务：评估一栋15个单元的物业，计算DSCR（偿债覆盖率）是否达到1.20x的贷款门槛。环境悄悄只返回了2个单元的数据，没有任何报错。

Claude Opus 4.6：“等等，15个单元怎么只返回了2个？”→重新请求→拿到完整数据→算出DSCR 1.19x，不达标 ->Success

Kimi K2.5：也重试了一次，但故障还在→直接假设15个单元都跟这2个一样→算出1.72x，达标→实际上这栋楼根本不合格 ->Fail

就因为数据截断，两个模型得出了完全相反的财务结论。放在真实金融场景里，这种错误的代价是很大的！

案例三：公交调度: 故障面前，谁能坚持到底？

任务：在显式故障（E1）环境下恢复一条公交线路的时刻表。

Claude Opus 4.6：12步操作中遇到了4次错误（超时、500），每次都坚持重试→最终完成全部调度 ->Success

Kimi K2.5：第一次遇到错误就停了→只完成了2步操作→任务失败 ->Fail

同样的故障率，一个坚持了12步走完了，另一个第2步就放弃了。

关于OccuBench

OccuBench覆盖10大行业: 农业与环境、商务与企业、电商与消费、教育与文化、医疗与生命科学、工业与工程、公共服务与治理、科学与研究、技术与IT、交通与物流。从行业难度来看，商务与企业（70.1%）和公共服务（69.4%）相对容易，而交通与物流（56.2%）和教育与文化（57.6%）是最具挑战性的行业。

OccuBench完整开源：382个评测任务 + 100个场景的环境配置 + 全部参考实现代码。

论文：https://arxiv.org/abs/2604.10866
项目主页：https://gregxmhu.github.io/OccuBench-website/
代码：https://github.com/GregxmHu/OccuBench
数据：https://huggingface.co/datasets/gregH/OccuBench

「国家队」下场，德塔智能连续三轮融资超亿元，押注原生人形机器人基础模型¶

OccuBench 文档宣传: 15个前沿大模型，100个职业场景：谁才是最强AI打工人？ ｜ 机器之心¶

机器之心¶

OccuBench 文档宣传: 15个前沿大模型，100个职业场景：谁才是最强AI打工人？｜机器之心¶