Claude Opus 4.7连夜突袭:或将抢走全球7亿打工人饭碗-36氪¶
站点: 36氪 抓取日期: 2026-04-17 URL: https://36kr.com/p/3770103465607685
Title: Claude Opus 4.7连夜突袭:或将抢走全球7亿打工人饭碗-36氪
URL Source: https://36kr.com/p/3770103465607685
Published Time: 2026-04-17T08:06:14+08:00
Markdown Content:
Claude Opus 4.7连夜突袭:或将抢走全球7亿打工人饭碗-36氪¶
登录
搜索
- 36氪Auto 数字时氪 未来消费 智能涌现 未来城市 启动Power on 36氪出海 36氪研究院 潮生TIDE 36氪企服点评 36氪财经 职场bonus 36碳 后浪研究所 暗涌Waves 硬氪 氪睿研究院 媒体品牌
- 企业号 企服点评 36Kr研究院 36Kr创新咨询 企业服务
- 核心服务 城市之窗 政府服务
- 创投发布 LP源计划 VClub VClub投资机构库 投资机构职位推介 投资人认证 投资人服务
- 寻求报道 36氪Pro 创投氪堂 企业入驻 创业者服务
- 创投平台
- AI测评网
搜索
我要入驻
商业策划
Claude Opus 4.7连夜突袭:或将抢走全球7亿打工人饭碗¶
新智元· 2026年04月17日 00:05
视觉能力从50%跃升至接近满分!
Anthropic 正式发布 Claude Opus 4.7,核心升级落在复杂任务执行、高清视觉理解和更稳的长链路工作流上。对普通用户来说,最直接的变化是更听指令、更会看图、产出更接近成品,同时也要注意Token也会烧得更快了。
就在刚刚,Anthropic 正式发布 Claude Opus 4.7,并将它定义为当前可广泛使用的最强 Claude 模型。
性能不如此前曝光的新一代Claude Mythos Preview那么炸裂,但比普通用户能真正用到的Opus 4.6强了太多,除了Agentic搜索能力略有下降外,实现了全面碾压!
官方给出的本次升级的关键词:复杂任务、更强视觉、更稳的长链路执行,以及更少需要人工参与。
只要还在用大模型写文档、读截图、做演示、整理材料,Opus 4.7 带来的体验变化,很难绕开。
本次更新最大的亮点,是Opus 4.7的视觉能力大幅提升,在测试中从Opus 4.6约50%的分数,直接飙升到接近满分!
而这,补上了AI目前最大的视觉短板,或许已经不知不觉地迈过了替代人类工作的那道最重要的槛!
GPT-5.4 Thinking是这样评价它的对手Claude Opus 4.7发布给打工人带来的影响的:
本次升级的关键¶
在于复杂任务的完成度¶
Anthropic 把 Opus 4.7 的核心升级点放在了高级软件工程和长时间任务执行上。
用户已经可以把过去需要密切监督的高难度编码工作交给它处理,它会更严格地执行指令,也会在回报结果前主动想办法验证输出。
API 发布说明里,Anthropic 也把它称为当前最强的通用可用模型,面向复杂推理和代理式编码场景。
大模型竞争的焦点,正在从答得像不像,转到做得完不完。只会写一段漂亮答案,已经不够了。
能不能把一份长文档改干净,能不能把一套资料串起来做成可交付物,能不能持续几十分钟甚至更久不跑偏,这才会决定它在日常工作里能不能真的替人扛起一片天。
这能够从 Opus 4.7 的官方发布重点里直接看出来。
纯编程只是开胃菜¶
SWE-bench Multilingual 测的是模型修复真实 GitHub issue 的能力,覆盖多种编程语言。
Opus 4.7 拿 80.5%,Opus 4.6 拿 77.8%,涨 2.7 个百分点。
单看这个数,似乎只是一次常规迭代。但同一张图右边那组数据更有意思,后面回头讲。
1M token 里的长任务¶
GraphWalks 是 OpenAI 做的长上下文基准,把一张有向图用边列表塞满 1M token 上下文,让模型做图遍历。
两种考法:一种是 Parents,给一个节点让模型找出所有直接指向它的父节点;另一种是 BFS 广度优先搜索,从起点出发一路找到特定深度可达的节点,对 Agent 跑多步骤长任务是硬指标。
在 Parents 1M 这趴,Opus 4.7 从 71.1% 提到 75.1%,4 个百分点的常规改进。
而到了 BFS 1M,Opus 4.7 则从 41.2% 一口气干到 58.6%,拉开 17.4 个百分点。
换个场景再看。
Vending-Bench 2 让模型模拟经营一台自动售货机,测长时间工作流里的决策连贯性。
Opus 4.6 最终余额 8,018 美元,Opus 4.7 做到 10,937 美元。
同一台售货机,同一个时间窗口,Opus 4.7 多挣了 36%。
Agent 的眼睛换了代¶
ScreenSpot-Pro 测的是 Agent 的屏幕定位能力。
给模型一张 VSCode、Photoshop、AutoCAD 这类专业软件的高分辨率桌面截图加一条自然语言指令,让它定位到具体的 UI 元素。在高分辨率屏幕里,目标 UI 元素往往只占整张图的 0.07%,极考验精细视觉。
同样低分辨率不带工具,Opus 4.6 拿 57.7%,Opus 4.7 拿 69.0%,拉开 11.3 个百分点。
切到高分辨率,Opus 4.7 不带工具就达到了 79.5%。叠加工具调用,跑分直接来到 87.6%。
视觉能力在一些测试(如XBOW的基准测试)中,Opus 4.7相比Opus 4.6得分直接翻倍,从54.5%跃升到接近满分98.5!
这造就了Opus 4.7相比4.6在计算机使用(Computer Use)能力的天壤之别!
回到前面留的那张编程图。
SWE-bench Multimodal 这项,Anthropic 是用内部实现的测试 harness 跑的。
测的是前端 JS 软件修 bug,任务里带着 UI 截图、效果图一类的视觉素材,模型要结合图片和代码一起干活。
从 Opus 4.6 的 27.1% 做到 Opus 4.7 的 34.5%,一口气提了 7.4 个百分点。
Opus 4.7 的编程升级,重点是让模型看懂屏幕。眼睛换代了,脑子才能干更复杂的活。
GPT-5.4 和 Gemini 3.1 Pro 都没扛住¶
前面全是自比,现在来看看跟老对手们怎么打。
GDPval-AA 是 Artificial Analysis 基于 OpenAI GDPval 数据集做的评估。
它覆盖了 44 种知识工作职业、9 大 GDP 核心行业,任务来自资深职业人士(平均 14 年经验)的真实交付物。AA 版本让模型在 agent loop 里干活,用盲测两两对比打 Elo 分。
Opus 4.7 拿 1753,Opus 4.6 拿 1619,GPT-5.4 拿 1674,Gemini 3.1 Pro 拿 1314。
Opus 4.7 高出 GPT-5.4 79 分,高出 Gemini 3.1 Pro 439 分。
OfficeQA Pro 是 Databricks 做的企业级推理基准,语料是近 100 年的美国财政部公报,8.9 万页 PDF、2600 万个数字。模型要精准找到文档、解析表格和正文、跨文档做分析推理。
在这里,Opus 4.7 的跑分高达 80.6%,而 Opus 4.6 只有 57.1%,GPT-5.4 和 Gemini 3.1 Pro 更低,分别是 51.1%和 42.9%。
换句话说,Opus 4.7 是 GPT-5.4 的 1.6 倍,是 Gemini 3.1 Pro 的 1.9 倍。
跃升最炸的是生物学¶
翻到最后一张,Structural Biology,生物分子推理。
Opus 4.6 只有 30.9%。而Opus 4.7 直接冲到了 74.0%。
一次版本迭代,从三成到七成半,2.4 倍。
堪称是所有 benchmark 里跃升最夸张的一项。
普通用户最先感受到的¶
是三大变化¶
第一个变化,指令遵循能力更强了。
Anthropic 写到,Opus 4.7 的指令遵循能力大幅提升,过去很多模型会松散理解、漏掉细节,Opus 4.7 则更倾向于逐条照着执行。
代价是,旧提示词有时会出现意料之外的结果,用户需要重新调整写法。
对普通用户来说,这会直接减少提示词玄学,写需求、定格式、列限制条件,会更有用。
第二种变化,Claude 看图会更细。
Opus 4.7 支持长边最高 2576 像素的图像输入,大约 375 万像素,超过此前 Claude 模型的三倍。
官方专门点了几个场景,密集截图、复杂图表、精细结构图、需要像素级参考的任务。
放到现实使用里,这对应的就是看懂一页密密麻麻的数据截图,识别产品原型细节,从复杂流程图里抽信息,读一张高分辨率海报或报表时少丢细节。
第三种变化,输出结果会更容易接近可交付的成品。
Anthropic 提到,Opus 4.7 在界面、幻灯片、文档这些专业任务上更有审美,也更有创造性。
它在基于文件系统的记忆上做得更好,能跨多轮、多会话记住关键备注,减少重复交代背景。
对经常拿模型润色材料、整理项目、反复改同一份内容的人来说,这种提升会比跑分的提升来得更直观。
这次发布¶
安全也被摆在了同样重要的位置¶
Anthropic 在一周前刚刚公布 Project Glasswing,专门谈到了前沿模型在网络安全方向的风险与收益。
Opus 4.7 成了这套新思路下第一个公开部署的模型,官方强调,它的网络安全能力弱于 Mythos Preview,并且上线时带有自动检测和拦截高风险网络安全请求的护栏。
合规安全研究人员则可以申请加入新的 Cyber Verification Program。
从安全评估看,Opus 4.7 与 Opus 4.6 的整体安全画像相近,在诚实性和抵抗恶意提示词注入上更强,在某些细项上也存在小幅走弱。
Anthropic 的结论是,它整体上「较为可靠且值得信任」,距离理想状态还有空间。
这说明,Anthropic 没有把发布包装成一次毫无代价的全面跃升。
谁会立刻受益¶
谁又要多留一个心眼¶
最先受益的人群很清楚,开发者、分析师、法务、研究人员,以及所有高频处理文档、表格、演示材料的人。
官方早期测试反馈里,很多合作方都提到同样几件事,复杂工作流更稳了,错误恢复更强了,文档推理、代码审查、数据分析、长上下文任务都有明显提升。
需要多留一个心眼的地方也已经写在官方说明里。
更高分辨率图像会烧掉更多 Token,用户用不到这些细节时,最好先压缩图片。
Opus 4.7 还换了分词器(Tokenizer),同样的输入可能会多出大约 1.0 到 1.35 倍 Token,高 Effort 下输出 Token 也会增加。
对直接在 Claude 应用里聊天的普通用户,这更多会体现在额度和响应体验上。
对使用龙虾和Hermes Agent这类API的用户和团队客户,这就是实打实的成本变量。
好在价格方面,Opus 4.7和4.6与4.5保持了一致,没有涨价,但这个价格本身其实就已经足够昂贵了...
Anthropic想传递的信号¶
已经很清楚了¶
从 Opus 4.7 这次发布能看出,Anthropic 眼下押注的方向已经很明确,长任务执行、视觉理解、工具协同、少监督交付,这几项能力正在被打包成下一阶段的大模型主战场。
官方同步上线的 Xhigh Effort(思考程度介于 high 和 max 中间)、Task Nudgets 公测,以及 Claude Code 里的 /ultrareview,也都围着这个方向在转。
除了官网公告外,Claude也公布了Opus 4.7的系统卡,长达232页,里面公布了更多值得关注的细节,限于篇幅再次我们不作展开。
对普通用户来说,对Claude Opus 4.7更直接的感受会是,交代清楚以后,它更容易把事情做对,看图更细,写出来的东西更能直接拿去用。
大模型从会聊天走向会干活,这一步又往前挪了一大截。
真正能干好活的最强生产力模型,从Opus 4.6,变成了Opus 4.7。
参考资料:
https://www.anthropic.com/news/claude-opus-4-7
https://x.com/claudeai/status/2044785261393977612
https://cdn.sanity.io/files/4zrzovbb/website/037f06850df7fbe871e206dad004c3db5fd50340.pdf
本文来自微信公众号“新智元”,作者:新智元,编辑:艾伦 好困,36氪经授权发布。
该文观点仅代表作者本人,36氪平台仅提供信息存储空间服务。
广告
+1
0
好文章,需要你的鼓励
新智元特邀作者
0收 藏+10评 论
打开微信“扫一扫”,打开网页后点击屏幕右上角分享按钮微 博
沉浸阅读 返回顶部
举报
参与评论
评论千万条,友善第一条
登录后参与讨论
提交评论 0/1000
你可能也喜欢这些文章
Claude Opus 4.7深夜炸场,胜任更长任务、自主检查,视觉能力拉满
刚刚,Claude Opus 4.7突然发布:不是最强,但奥特曼又得失眠
匿名模型“大象”搅局OpenRouter:100B参数冲到热榜第一,实测结果如何
OpenAI祭出GPT-5.4神装,Codex同款Harness全面开放
最新文章推荐¶
Claude Opus 4.7连夜突袭:或将抢走全球7亿打工人饭碗Claude Opus 4.7深夜炸场,胜任更长任务、自主检查,视觉能力拉满刚刚,Claude Opus 4.7突然发布:不是最强,但奥特曼又得失眠8点1氪丨全季大连某酒店账号公开多名客人特殊订单备注;金立手机创始人被曝在印尼卖家具;雷军将连播15小时测试新SU7续航36氪首发|“龙虾出行”完成近亿元天使轮融资:全球首发AI出行助理郝珂灵重磅之作《AI帝国》中文版首发,揭开OpenAI的遮羞布智能体时代 AI 选择指南2026年你真正该专注的事,其余全是噪音智元旗下觅蜂发布一站式物理 AI 数据服务平台|最前线抖音向美团开出第二炮:从错位竞争,到贴脸抢地盘

特邀作者
TA没有写简介,但内敛也是一种表达
发表文章 4594 篇
最近内容¶
Claude Opus 4.7连夜突袭:或将抢走全球7亿打工人饭碗
38秒前
OpenAI祭出GPT-5.4神装,Codex同款Harness全面开放
11小时前
AI安全得查祖宗三代?Anthropic登Nature揭秘大模型潜意识传染
12小时前
企服圈子¶
软件选型经验交流社区 加入

行业交流群
扫码加我,拉你进对应的行业群,链接一手资源和人脉!已有170000+人深度交流中~
36氪企服点评订阅号 关注

36氪企服-订阅号
「36氪企服」会定期分享行业深度案例、报告以及热点话题,从用户视角出发,帮企业买家选中真正“对”的软件与服务。
36氪企服点评服务号 关注

36氪企服点评-服务号
「36氪企服点评」现已收录近万款产品,致力于帮助每个需求企业服务的人做出正确的决策,携手每个企服行业者为大众提供更高的价值与服务。
企服软件推荐¶
找软件,先查用户评分榜查看
顾问1对1推荐软件免费服务体验
下一篇¶
Claude Opus 4.7深夜炸场,胜任更长任务、自主检查,视觉能力拉满
两眼一睁,Claude又更新了。
55秒前
热门标签¶
威震天苹果公司高管上海开票北京开票上海证券服装设计师天音控股乙肝疫苗中央美术学院网球王子许斐刚雅阁史诗朱梓骁japa在职教育肯尼迪航天中心黑眼圈春都箭牌培训经理岳阳株洲孙燕姿普通话小笼包旅行家郑东世预赛京都大学
关于36氪
热门推荐
合作伙伴
36氪APP下载

iOS & Android
本站由阿里云提供计算与安全服务 违法和不良信息、未成年人保护举报电话:010-89650707 举报邮箱:jubao@36kr.com网上有害信息举报
© 2011~2026 北京多氪信息科技有限公司 |京ICP备12031756号-6|京ICP证150143号|京公网安备11010502057322号

36氪APP 让一部分人先看到未来
36氪
鲸准
氪空间
推送和解读前沿、有料的科技创投资讯
一级市场金融信息和系统服务提供商
聚焦全球优秀创业者,项目融资率接近97%,领跑行业










