刚刚,Claude Opus 4.7突然发布:不是最强,但奥特曼又得失眠 | 爱范儿¶
站点: 爱范儿 抓取日期: 2026-04-17 URL: https://www.ifanr.com/1662528
刚刚,Claude Opus 4.7突然发布:不是最强,但奥特曼又得失眠 | 爱范儿 分类 AIGC Cartoon Saloon CES 2018 CES Asia CES2019 ifanQ ifanRank ifanrank ifanRank ifanRank 2018 MindTalk MWC 2018 专访 产品 人物 公司 制糖工厂 商业 图记 好莱坞 小程序 广告 文娱 新创 新消费 早报 模范评测 汽车 游戏 爱范儿 特稿 生活 硬件 糖纸 糖纸众测 范评 董车会 视频 设计 评测 软件 近未来 商务合作 内容投稿 下载客户端 登录 注册 我的动态 消息中心 我的收藏 账户设置 退出登录 媒体品牌 爱范儿 关注明日产品的数字潮牌 APPSO 先进工具,先知先行,AIGC 的灵感指南 董车会 造车新时代,明日出行家 玩物志 探索城市新生活方式,做你的明日生活指南 知晓云 制糖工厂 扫描小程序码,了解更多 热门搜索 为您查询到 篇文章 加载更多 刚刚,Claude Opus 4.7突然发布:不是最强,但奥特曼又得失眠 公司 6 小时前 - 评论 分享到微信 使用微信扫码将网页分享到微信 今年 Anthropic 的势头异常凶猛。 不仅热度居高不下,口碑也持续攀升,稳坐 AI 圈「顶流」的交椅。现在几乎每天醒来,都能看到他们准点推送的新产品或新功能。久而久之,大家也从兴奋变成了「是你,果然又是你」的默契感。 而就在刚刚,万众期待的 Claude Opus 4.7 也正式发布,依旧是熟悉的配方,熟悉的高分选手。 有趣的是,Anthropic 在公告里非常坦诚,甚至带着点骄傲:「这并非我们最强大的模型。」那个传说强得可怕的 Claude Mythos Preview 依然还在藏。 但就是这个并非最强的 Opus 4.7,却依旧引发了极大的关注。因为它解决了一个比聪明更重要的痛点:靠谱。不是那种你说什么它就做什么的靠谱,而是当你提出一个愚蠢的方案时,它敢于反驳你,并自己把坑填上的靠谱。 当靠谱成为比聪明更稀缺的品质 基准测试结果显示,在业界公认最硬核的 SWE-bench Pro 上,4.7 从前代的 53.4% 直接拉到 64.3%,单代升级涨了近 11 个百分点,把 GPT-5.4(57.7%)和 Gemini 3.1 Pro(54.2%)都甩在了身后。 视觉推理的 CharXiv 基准从 69.1% 跳到 82.1%,对应的是它新获得的 2576 像素长边识别能力——清晰度是前代的 3 倍以上。 这不只是「看得更清楚」这么简单。更高的分辨率直接带动了输出质量的连锁提升:生成界面、制作幻灯片、排版文档,细节精度也全面提升。 工具调用规模化评测 MCP-Atlas 上,4.7 跑出 77.3%,超过 GPT-5.4 的 68.1% 和 Gemini 的 73.9%。法律 AI 平台 Harvey 测试中,4.7 在 BigLaw 基准上拿下 90.9%,正确区分了历来是前沿模型死穴的「转让条款」与「控制权变更条款」。 不过,4.7 也并非全然遥遥领先,在 Agentic search 评测 BrowseComp 上,4.7 反而从前代的 83.7% 下降到了 79.3%,被 GPT-5.4(89.3%)和 Gemini(85.9%)超越。 这个退步并非偶然。一个遇到缺失信息会直接报错、不肯乱编答案的 Agent,在以「是否给出答案」为评判标准的基准上,天然会吃亏。 而数据之外,更值得关注的问题是:这种「靠谱」,在真实工作里到底意味着什么? 过去一年,业界对代码大模型的期待,普遍还停留在「写个函数、找个 Bug」的层面,但 Claude 4.7 在早期测试里,展现出了一种截然不同的气质。 知名云端开发平台 Replit 的负责人这样描述:「它在技术讨论中会反驳我,帮我做出更好的决定。它真的感觉像一个更好的同事。」 它不再一味地「唯命是从」,也不再为了交差而胡编乱造。在数据科学平台 Hex 的测试里,4.7 遇到缺失数据时会直接报错,而不是像前代那样塞一个「看似合理但完全错误」的备选值。Hex 团队甚至直言:「低消耗状态下的 4.7,等同于中等消耗状态下的 4.6。」 这种「拒绝顺从」的特质,恰恰是高级软件工程里最稀缺的东西。 当然,凡事有两面。为旧模型写的 prompt,到了 4.7 手里可能会产生意想不到的结果。那些过去被模型「意会」掉的模糊指令,4.7 会一字一字地字面执行。这也意味着越懂得清楚表达需求的人,越能从 4.7 这里拿到好结果。 光会「顶嘴」还不够,遇到挫折就罢工的 AI 同样不是好同事。4.7 的另一个大的变化,是任务韧性。 以往大模型在多步任务中遇到工具调用失败,往往直接停机报错。Notion 团队测试发现,4.7 的工具错误率降到了原来的三分之一,更关键的是,它能在工具链崩溃时自己绕过障碍,继续把任务跑完。 当 AI 停止谄媚,真正的生产力才开始爆发。 Anthropic 公布的一个极端案例里,4.7 在没有任何人类干预的情况下,从零构建了一个完整的 Rust 文本转语音引擎——写神经网络模型、SIMD 内核和浏览器演示,还自己把输出喂给语音识别器做验证,连测试都一并完成了。 前端框架巨头 Vercel 还发现了一个过去从未有过的行为:4.7 会在开始写系统级代码之前,先自己进行数学证明。这已经超出了写代码的范畴,进入了严谨工程设计的领域。 雇佣 AI「资深专家」的代价 为了验证它在细节上的处理能力,我设定了三个前端交互场景,评判标准只有一个:细节是否敷衍,一眼便知。 第一个场景,是让它做一个俯视视角的黑胶唱片机界面,其难点在于「金属光泽」与「呼吸光晕」的呈现。4.7 并没有用廉价的色彩渐变敷衍了事,而是通过复杂的 CSS 样式叠加,逼真地还原了金属质感。 第二个场景是只用 CSS,不用 JavaScript 做一个老式电风扇。 面对这个限制严格的题目,一些模型会悄悄违规使用 JS,但 4.7 遵守了规则。它用纯 CSS 做出了风扇的立体结构,低中高三档过渡流畅,底座透视和阴影的处理也真有一点实物感,它在规则允许的范围内找到了很好的解决办法。 第三个场景是做一个复古磁带随身听,带有录像带那种老旧的噪点效果。磁带转动的细节也是有的。 当然,变聪明是有代价的。Opus 4.7 现已在所有 Claude 产品和 API、Amazon Bedrock、Google Cloud 的 Vertex AI 以及 Microsoft Foundry 平台上推出。 基础定价维持在每百万输入 5 美元、输出 25 美元不变。但 4.7 引入了全新分词器,同样的文本会拆分出比原来多 1.0 到 1.35 倍的 Token。 叠加上它在高强度任务中本身就倾向于「多想一会儿」,实际消耗几乎必然上升。 此外,Anthropic 在原有的难度选项之上,加入了全新的 xhigh(超高)级别。在这个级别下,面对复杂难题,Claude 4.7 会消耗更多的 Token,花更多的时间去「思考」。Claude Code 已经把所有套餐的默认 effort level 直接拉到了 xhigh。 Anthropic 用行动告诉所有人,对于真正的编码任务,省着用不如想清楚。 为了匹配这种工作流,Claude Code 顺势推出了两个杀手级功能: /ultrareview(深度审查):开启一个专门的审查会话,像一个极其挑剔的资深 Reviewer 一样,通读所有代码更改,精准标记出深层的架构设计缺陷和 Bug。Pro 和 Max 用户可以免费试用三次。 Auto Mode(自动模式)扩展到 Max 用户:一种介于「逐项授权」和「跳过所有权限」之间的新权限模式。Claude 会在你授权的范围内自主做决策,既能跑完漫长无聊的任务,又比完全放权更安全。 为了防止这个「太能思考」的 AI 把账户余额刷爆,API 端还推出了「任务预算」(Task Budgets)功能公测版,让开发者可以显式规划 Claude 在长任务中的 Token 支出优先级。 当然,4.7 并不是 Anthropic 手里最强的牌。 那个更强的 Claude Mythos Preview,本月刚以「Project Glasswing」的名义,小范围开放给了一批企业用于网络安全研究。Mythos 没有公开发布,原因则是因为它的网络攻防能力太强,Anthropic 觉得还没想清楚怎么安全地推给所有人。 4.7 本身也做了主动取舍,训练阶段就压低了网络攻防能力,内置自动拦截机制,碰到高风险请求直接挡掉。有合规需求的安全研究人员,可以通过官方渠道单独申请。 不急着把最强的牌打出去,和不停地往桌上加新牌,背后是同一套逻辑。实际上,Anthropic 真正的护城河,是交付节奏本身。 在今年 2 月 1 日至 3 月 24 日,短短 52 天里,Anthropic 一共更新了 74 款产品,平均不到两天一个。Cowork、插件……这些动作扎扎实实地击中了职场办公的痛点。 如今的 Claude 生态,早就超越了单纯的「聊天机器人」。对于那些渴望将 AI 深度嵌入实际工作流的团队而言,这种稳定、高频且可预期的更新节奏,才是最让人感到踏实的定心丸。 今天发布的 Claude 4.7,是这条链条上最新的一块压舱石。而那个 Mythos Preview,迟早也会来。到那时候,我们现在觉得已经很能打的 4.7,可能只是个开端。 AI Claude 分享 分享到微博 分享到Twitter 分享到LinkedIn 扫一扫分享到微信 全部评论 ( - ) 最热 最新 登录 ,参与讨论前请先登录 收到回复邮件通知我 发表评论 评论在审核通过后将对所有人可见 正在加载中 查看更多评论 推荐文章 作者 → 发邮件 莫崇宇 Hello, World Hello, Word 累计已发布 409 篇文章 最近文章: 苹果把Siri员工送进AI「补习班」,黄仁勋的暴论开始应验了 快倒闭的硅谷神鞋,转行 AI 股价暴涨 7 倍,龙虾之父都懵了 本篇来自栏目 解锁订阅模式,获得更多专属优质内容 上一篇 8 小时前 迟到六年,大众 ID.3 Neo 终于改掉「反人类」设计,可惜时代不等人 爱范儿,关注明日产品的数字潮牌 爱范儿 AppSo 董车会 知晓程序 关于爱范儿 关于我们 社区规则 隐私策略 加入我们 商务合作 合作伙伴 粤ICP备18066688号-2 粤公网安备44010602006618号 版权所有 © 广州利沃致远投资管理合伙企业(有限合伙) 2008 - 2023。以商业目的使用爱范儿网站内容需获许可。非商业目的使用授权遵循 CC BY-NC 4.0 。 All content is made available under the CC BY-NC 4.0 for non-commercial use. Commercial use of this content is prohibited without explicit permission. Designed by if Design Studio. 关注 if Design Studio. 微信扫码关注公众号 if Design Studio. 爱范儿 App 爱范儿,让未来触手可及 爱范儿 AppSo 玩物志 知晓云 知晓程序 关注爱范儿微信号,连接热爱,关注这个时代最好的产品。 想让你的手机好用到哭?关注这个号就够了。 关注玩物志微信号,就是让你乱花钱。 小程序开发快人一步。 最好的微信新商业服务平台。