刚刚，Claude Opus 4.7突然发布：不是最强，但奥特曼又得失眠-36氪¶

站点: 36氪 抓取日期: 2026-04-17 URL: https://36kr.com/p/3770089953509894

Title: 刚刚，Claude Opus 4.7突然发布：不是最强，但奥特曼又得失眠-36氪

URL Source: https://36kr.com/p/3770089953509894

Published Time: 2026-04-17T08:06:47+08:00

Markdown Content:

刚刚，Claude Opus 4.7突然发布：不是最强，但奥特曼又得失眠-36氪¶

Image 1: 36氪

账号设置我的关注我的收藏申请的报道退出登录

登录

搜索

36氪Auto 数字时氪未来消费智能涌现未来城市启动Power on 36氪出海 36氪研究院潮生TIDE 36氪企服点评 36氪财经职场bonus 36碳后浪研究所暗涌Waves 硬氪氪睿研究院媒体品牌
企业号企服点评 36Kr研究院 36Kr创新咨询企业服务
核心服务城市之窗政府服务
创投发布 LP源计划 VClub VClub投资机构库投资机构职位推介投资人认证投资人服务
寻求报道 36氪Pro 创投氪堂企业入驻创业者服务
创投平台
AI测评网

首页
快讯
资讯
- 推荐
- 财经
- AI
- 自助报道
- 城市
- 最新
- 创投
- 汽车
- 科技
- 专精特新
直播
视频
专题
活动
广东
江苏
四川
河南
湖北
安徽
海南
浙江
陕西
重庆
山东
湖南
贵州

搜索

寻求报道

我要入驻

城市合作

商业策划

刚刚，Claude Opus 4.7突然发布：不是最强，但奥特曼又得失眠¶

爱范儿· 2026年04月17日 00:05

靠谱，是比聪明更宝贵的品质

今年 Anthropic 的势头异常凶猛。

不仅热度居高不下，口碑也持续攀升，稳坐 AI 圈「顶流」的交椅。现在几乎每天醒来，都能看到他们准点推送的新产品或新功能。久而久之，大家也从兴奋变成了「是你，果然又是你」的默契感。

而就在刚刚，万众期待的 Claude Opus 4.7 也正式发布，依旧是熟悉的配方，熟悉的高分选手。

有趣的是，Anthropic 在公告里非常坦诚，甚至带着点骄傲：「这并非我们最强大的模型。」那个传说因强到不敢发布的 Claude Mythos Preview 依然还在藏。

但就是这个并非最强的 Opus 4.7，却依旧引发了极大的关注。因为它解决了一个比聪明更重要的痛点：靠谱。不是那种你说什么它就做什么的靠谱，而是当你提出一个愚蠢的方案时，它敢于反驳你，并自己把坑填上的靠谱。

当靠谱成为比聪明更稀缺的品质¶

基准测试结果显示，在业界公认最硬核的 SWE-bench Pro 上， Opus 4.7从前代的 53.4% 直接拉到 64.3%，单代升级涨了近 11 个百分点，把 GPT-5.4（57.7%）和 Gemini 3.1 Pro（54.2%）都甩在了身后。

视觉推理的 CharXiv 基准从 69.1% 跳到 82.1%，对应的是它新获得的 2576 像素长边识别能力——清晰度是前代的 3 倍以上。

这不只是「看」得更清楚这么简单。更高的分辨率直接带动了输出质量的连锁提升：生成界面、制作幻灯片、排版文档，细节精度也全面提升。

工具调用规模化评测 MCP-Atlas 上， Opus 4.7跑出 77.3%，超过 GPT-5.4 的 68.1% 和 Gemini 的 73.9%。法律 AI 平台 Harvey 测试中， Opus 4.7在 BigLaw 基准上拿下 90.9%，正确区分了历来是前沿模型死穴的转让条款与控制权变更条款。

不过， Opus 4.7也并非全然遥遥领先，在 Agentic search 评测 BrowseComp 上， Opus 4.7反而从前代的 83.7% 下降到了 79.3%，被 GPT-5.4（89.3%）和 Gemini（85.9%）超越。

这个退步并非偶然。一个遇到缺失信息会直接报错、不肯乱编答案的 Agent，在以「是否给出答案」为评判标准的基准上，天然会吃亏。

而数据之外，更值得关注的问题是：这种「靠谱」，在真实工作里到底意味着什么？过去一年，业界对代码大模型的期待，普遍还停留在写个函数、找个 Bug 的层面，但 ClaudeOpus 4.7在早期测试里，展现出了一种截然不同的气质。

知名云端开发平台 Replit 这样描述：「它在技术讨论中会反驳我，帮我做出更好的决定。它真的感觉像一个更好的同事。」

它不再一味地唯命是从，也不再为了交差而胡编乱造。在数据科学平台 Hex 的测试里， Opus 4.7遇到缺失数据时会直接报错，而不是像前代那样塞一个看似合理但完全错误的备选值。

这种拒绝顺从的特质，恰恰是高级软件工程里最稀缺的东西。

当然，凡事有两面。为旧模型写的 prompt，到了Opus 4.7手里可能会产生意想不到的结果。那些过去被模型「意会」的模糊指令， Opus 4.7会一字一字地字面执行。这也意味着越懂得清楚表达需求的人，越能从Opus 4.7这里拿到好结果。

光会「顶嘴」还不够，遇到挫折就罢工的 AI 同样不是好同事。 Opus 4.7的另一个大的亮点，是任务韧性。

以往大模型在多步任务中遇到工具调用失败，往往直接停机报错。Notion 团队测试发现， Opus 4.7的工具错误率降到了原来的三分之一，更关键的是，它能在工具链崩溃时自己绕过障碍，继续把任务跑完。

当 AI 停止谄媚，真正的生产力才开始爆发。

Anthropic 公布的一个极端案例里， Opus 4.7在没有任何人类干预的情况下，从零构建了一个完整的 Rust 文本转语音引擎——写神经网络模型、SIMD 内核和浏览器演示，还自己把输出喂给语音识别器做验证，连测试都一并完成了。

前端框架巨头 Vercel 还发现了一个过去从未有过的行为： Opus 4.7会在开始写系统级代码之前，先自己进行数学证明。这已经超出了写代码的范畴，进入了严谨工程设计的领域。

雇佣 AI「资深专家」的代价¶

为了验证它在细节上的处理能力，我设定了三个交互场景，评判标准只有一个：细节是否敷衍，一眼便知。

第一个场景，是让它做一个俯视视角的黑胶唱片机界面，其难点在于「金属光泽」与「呼吸光晕」的呈现。 Opus 4.7并没有用廉价的色彩渐变敷衍了事，而是通过复杂的 CSS 样式叠加，逼真地还原了金属质感。

第二个场景是只用 CSS，不用 JavaScript 做一个老式电风扇。面对这个限制严格的题目，一些模型会悄悄违规使用 JS，但Opus 4.7遵守了规则。

它用纯 CSS 做出了风扇的立体结构，低中高三档过渡流畅，底座透视和阴影的处理也真有一点实物感，它在规则允许的范围内找到了很好的解决办法。

第三个场景是做一个复古磁带随身听，带有录像带那种老旧的噪点效果。磁带转动的细节也是有的。

当然，变聪明是有代价的。 Opus 4.7 现已在所有 Claude 产品和 API、Amazon Bedrock、Google Cloud 的 Vertex AI 以及 Microsoft Foundry 平台上推出。

基础定价维持在每百万 token 输入 5 美元、输出 25 美元不变。但 Opus 4.7 引入了全新分词器，同样的文本会拆分出比原来多 1.0 到 1.35 倍的 Token。

叠加上它在高强度任务中本身就倾向于「多想一会儿」，实际消耗几乎必然上升。

此外，Anthropic 在原有的难度选项之上，加入了全新的 xhigh（超高）级别。在这个级别下，面对复杂难题，ClaudeOpus 4.7会消耗更多的 Token，花更多的时间去「思考」。Claude Code 已经把所有套餐的默认 effort level 直接拉到了 xhigh。

Anthropic 用行动告诉所有人，对于真正的编码任务，省着用不如想清楚。为了匹配这种工作流，Claude Code 顺势推出了两个杀手级功能：

/ultrareview（深度审查）：开启一个专门的审查会话，像一个极其挑剔的资深 Reviewer 一样，通读所有代码更改，精准标记出深层的架构设计缺陷和 Bug。Pro 和 Max 用户可以免费试用三次。

Auto Mode（自动模式）扩展到 Max 用户：一种介于逐项授权和跳过所有权限之间的权限模式。Claude 会在你授权的范围内自主做决策，既能跑完漫长无聊的任务，又比完全放权更安全。

为了防止这个「太能思考」的 AI 把账户余额刷爆，API 端还推出了「任务预算」（Task Budgets）功能公测版，让开发者可以显式规划 Claude 在长任务中的 Token 支出优先级。

当然， Opus 4.7并不是 Anthropic 手里最强的牌。那个更强的 Claude Mythos Preview，本月刚以「Project Glasswing」的名义，小范围开放给了一批企业用于网络安全研究。

Mythos 没有公开发布，原因则是因为它的网络攻防能力太强，Anthropic 觉得还没想清楚怎么安全地推给所有人。

Opus 4.7本身也做了主动取舍，训练阶段就压低了网络攻防能力，内置自动拦截机制，碰到高风险请求直接挡掉。有合规需求的安全研究人员，可以通过官方渠道单独申请。

不急着把最强的牌打出去，和不停地往桌上加新牌，背后是同一套逻辑。实际上，Anthropic 真正的护城河，是交付节奏本身。

在今年 2 月 1 日至 3 月 24 日，短短 52 天里，Anthropic 就一共更新了 74 款产品，平均不到两天一个。Cowork、插件……这些动作扎扎实实地击中了职场办公的痛点，这种频率，够让奥特曼睡不着了。

如今的 Claude 生态，早就超越了单纯的聊天机器人。对于那些渴望将 AI 深度嵌入实际工作流的团队而言，这种稳定、高频且可预期的更新节奏，才是最让人感到踏实的定心丸。

今天发布的 ClaudeOpus 4.7 ，是这条链条上最新的一块压舱石。而那个 Mythos Preview，迟早也会亮相。到那时候，我们现在觉得已经很能打的 Opus 4.7，可能只是个开端。

本文来自微信公众号“APPSO”，作者：发现明日产品的APPSO，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

+1

0

好文章，需要你的鼓励

爱范儿特邀作者

0收藏+10评论

打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮微博

沉浸阅读 返回顶部

参与评论

评论千万条，友善第一条

登录后参与讨论

提交评论 0/1000

你可能也喜欢这些文章

Claude Opus 4.7连夜突袭：或将抢走全球7亿打工人饭碗

Claude Opus 4.7深夜炸场，胜任更长任务、自主检查，视觉能力拉满

智元旗下觅蜂发布一站式物理 AI 数据服务平台｜最前线

救命，我的老板是个AI，它正通过摄像头看我玩手机

一本正经的Claude“身份验证”，藏着赛道最残酷的博弈

当硅基销售员年薪只要5万，CRM厂商就得连夜改行

Sora折戟，即梦涨价，阿里入局：AI视频的下半场怎么打？

匿名模型“大象”搅局OpenRouter：100B参数冲到热榜第一，实测结果如何

OpenAI祭出GPT-5.4神装，Codex同款Harness全面开放

爱范儿

特邀作者

聚焦创新及消费科技领域

发表文章 3899 篇

企服圈子¶

软件选型经验交流社区加入

行业交流群

扫码加我，拉你进对应的行业群，链接一手资源和人脉！已有170000+人深度交流中～

36氪企服点评订阅号关注

36氪企服-订阅号

「36氪企服」会定期分享行业深度案例、报告以及热点话题，从用户视角出发，帮企业买家选中真正“对”的软件与服务。

36氪企服点评服务号关注

36氪企服点评-服务号

「36氪企服点评」现已收录近万款产品，致力于帮助每个需求企业服务的人做出正确的决策，携手每个企服行业者为大众提供更高的价值与服务。

找软件，先查用户评分榜查看

顾问1对1推荐软件免费服务体验

下一篇¶

8点1氪丨全季大连某酒店账号公开多名客人特殊订单备注；金立手机创始人被曝在印尼卖家具；雷军将连播15小时测试新SU7续航

全季大连一酒店员工私发客人订单备注引争议，华住集团要求其注销账号并通报批评。

4分钟前

关于36氪

网络谣言信息举报入口

刚刚，Claude Opus 4.7突然发布：不是最强，但奥特曼又得失眠-36氪¶

刚刚，Claude Opus 4.7突然发布：不是最强，但奥特曼又得失眠-36氪¶

刚刚，Claude Opus 4.7突然发布：不是最强，但奥特曼又得失眠¶

当靠谱成为比聪明更稀缺的品质¶

雇佣 AI「资深专家」的代价¶

最近内容¶

企服圈子¶

企服软件推荐¶

下一篇¶