跳转至

表格建模也能Scaling?树模型的时代要改变了

公众号: 机器之心 发布日期: 04月17日 抓取日期: 2026-04-18 URL: https://www.jiqizhixin.com/articles/03f0a9f3-7735-452d-9bb3-3e992e40db87


Title: Claude Opus 4.7深夜上线,评分碾压 | 机器之心

URL Source: https://www.jiqizhixin.com/articles/03f0a9f3-7735-452d-9bb3-3e992e40db87

Markdown Content:

Claude Opus 4.7深夜上线,评分碾压 | 机器之心

机器之心

Image 1: 机器之心

Image 2: 未登录

登录

Image 3: empty_user 去登录

Image 4文章库Image 5PRO会员通讯Image 6SOTA!模型Image 7AI ShortlistImage 8: new-iconImage 9AI 好好用

Image 10: 机器之心

文章库PRO通讯会员SOTA!模型AI ShortlistImage 11: new-icon

AI 好好用

Image 12登录

Image 13: home

Image 14: logo文章库

Image 15: icon

Image 16: no-user登录

Claude Opus 4.7深夜上线,评分碾压

0%

Image 17: icon展开列表

AI全方位接管,全链路打通干湿闭环,深势发布玻尔·跃迁实验室

04月17日

AI for Science

Image 18: img

Transformer与RNN合体,谷歌打下显存门槛,解锁超长上下文

04月17日

Transformer

Image 19: img

AI 下半场,由谁来定义?2026 WAIC 云帆奖启航

04月17日

2026 WAIC 云帆奖

Image 20: img

π0.7来了!涌现出组合泛化、跨本体迁移能力,VLA又行了?

04月17日

π 0.7

Image 21: img

SIGIR'26|DPPMG 首创个性化多模态生成新范式:图文一致更懂你

04月17日

DPPMG

Image 22: img

从高端制造到多元公共服务,智平方×西子联合开启具身智能“全场景闭环”新纪元

04月17日

GOVLA

Image 23: img

直播预约 | 世界模型,点燃下一个AI爆点(第二期)

04月17日

世界模型

Image 24: img

图灵也没想到,智能,必须在现实中「活」下来

04月17日

具身智能

Image 25: img

π0.6和GEN-1谁代表未来?乾坤未定,但这条底层赛道浮出水面

04月17日

数据编译

Image 26: img

DeepSeek悄悄更新:Mega MoE、FP4 Indexer来了

04月17日

Mega MoE

Image 27: img

ACL 2026 | OPeRA Dataset: LLM真的能模仿人类行为了吗?首次系统评估LLM的人类行为模拟能力

04月17日

OPeRA Dataset

Image 28: img

短短3个月,高德已拿下具身智能领域15项世界第一

04月17日

Abot-world

Image 29: img

AI能力再进阶,科大讯飞“招采Claw”如何让复杂招采省力合规?

04月17日

2026科大讯飞 AstronClaw升级发布会

Image 30: img

18家具身顶尖势力集结,RoboChallenge 打造全球最大具身模型竞技场

04月17日

RoboChallenge

Image 31: img

Claude Opus 4.7深夜上线,评分碾压

04月17日

Claude Opus 4.7

Image 32: img

表格建模也能Scaling?树模型的时代要改变了

04月17日

Scaling Law

Image 33: img

打造全球领先“具身智能超级供应链”,京东发布行业首个具身数据全链路基础设施

04月16日

京东具身智能生态发布会

Image 34: img

当AI迈入Harness时代:以MiniMax为样本看智能体云端新基建

04月16日

MaxHermes

Image 35: img

数据限制具身?觅蜂杀进场破局:高质量数据水电一样即取即用

04月16日

觅蜂科技(Maniformer)

Image 36: img

TPAMI 2026 | 北大彭宇新团队提出CPL++框架,实现视觉定位模型的「自知之明」和「自我纠错」

04月16日

CPL++

Image 37: img

Image 38: avatar

机器之心 原创

13小时前

Claude Opus 4.7深夜上线,评分碾压

想不到,风口浪尖上的 Claude 又大更新了。

周四晚间,Anthropic 宣布旗下最新款基础模型 Claude Opus 4.7 全面上市。

Opus 4.7 在高级软件工程方面相比 Opus 4.6 有了显著提升,尤其是在处理最复杂的任务方面。用户反馈表示,他们现在可以放心地将以前需要密切监督的最棘手的编码工作交给 Opus 4.7 处理。Opus 4.7 能够严谨且一致地处理复杂、耗时的任务,精准地执行指令,并在返回结果之前设计出验证自身输出的方法。

该模型还拥有明显更佳的视觉效果:它能够识别更高分辨率的图像,完成专业任务时,更具品味和创造力,能够制作出更高质量的界面、幻灯片和文档。而且,尽管它的功能不如刚公布的最强模型 Claude Mythos Preview 全面,但在多项基准测试中,它的表现都优于 Opus 4.6:

Image 39: 图片 可见 SWE-bench Pro 的分数达到了 64.3%,远高于 GPT-5.4 的 57.7%。

Opus 4.7 已在所有 Claude 产品和 API、Amazon Bedrock、Google Cloud 的 Vertex AI 以及 Microsoft Foundry 平台上推出。定价与 Opus 4.6 相同:每百万个输入 token 5 美元,每百万个输出 token 25 美元。开发者可通过 Claude API 使用。

根据目前大家的使用反馈,新模型更加严谨,复杂任务的一致性也更强了,在最困难的编程任务上进步明显。当然这也不是没有代价的:

Image 40: 图片 以下是 Opus 4.7 早期测试的一些亮点:

  • 指令执行能力,Opus 4.7 的表现有了显著提升。有趣的是,这意味着之前版本编写的提示信息现在有时可能会产生意想不到的结果:之前的版本对指令的解释较为宽泛,甚至完全跳过某些部分,而 Opus 4.7 则会严格按照指令执行。用户应据此调整提示信息和相关设置。

  • 改进的多模态支持。Opus 4.7 对高分辨率图像的处理能力更强:它可以处理长边高达 2576 像素(约 375 万像素)的图像,是之前 Claude 型号的三倍以上。这为依赖精细视觉细节的多模态应用开辟了广阔的空间:智能体可以读取密集屏幕截图、从复杂图表中提取数据以及需要像素级精确参考的工作。

  • 实际应用能力提升。除了在财务代理评估中获得领先水平(见上表)外,Anthropic 的内部测试表明,Opus 4.7 比 Opus 4.6 更高效地进行财务分析,能够生成严谨的分析和模型,呈现更专业的演示文稿,并在各项任务之间实现更紧密的整合。Opus 4.7 在 GDPval-AA 评估中也处于领先水平。

  • 内存占用方面,Opus 4.7 更擅长利用文件系统内存。它能记住长时间、多会话工作中的重要笔记,并利用这些笔记继续执行新的任务,因此这些新任务对预先获取的上下文信息要求更低。

Image 41: 图片Image 42: 图片Image 43: 图片Image 44: 图片Image 45: 图片Image 46: 图片Image 47: 图片 Claude Code 负责人 Boris Cherny 介绍了 Claude Opus 4.7 的一些最新特性。

1、自动模式

Opus 4.7 喜欢执行复杂、长时间运行的任务,比如深度研究、重构代码、构建复杂功能、迭代直到达到性能基准。过去,你要么得在模型执行这类长时间任务时全程监督,要么使用 --dangerously-skip-permissions。

自动模式作为一种更安全的替代方案,在这种模式下,权限提示会被路由到一个基于模型的分类器,来决定命令是否安全执行。如果安全,它就会自动批准。

这意味着模型运行时不再需要全程监督。更重要的是,这意味着你可以并行运行更多 Claude。一旦一个 Claude 开始运行,你就可以将注意力转向下一个 Claude。

Image 48: 图片 2、新的 /fewer-permission-prompts 技能

它会扫描你的会话历史记录,找出常见的 bash 和 MCP 命令,这些命令是安全的,也导致了重复的权限提示。然后,它会推荐一个命令列表,将其添加到你的权限白名单中。

你可以使用此功能来优化你的权限设置,避免不必要的权限提示。

3、「回顾」

回顾是对智能体所做的事情及下一步行动的简短总结,它可以在几分钟或几小时后返回一个长时间运行的会话。

Image 49: 图片 4、专注模式

CLI 中加入了专注模式,它会隐藏所有中间步骤,只专注于最终结果。新模型已经达到了这样一个程度,我们通常信任它会运行正确的命令并进行正确的编辑,只需要查看最终结果。

你可以使用 /focus 进行开关。

5、自适应的思考深度

Opus 4.7 使用自适应思考而非思考预算。要调整模型的思考多 / 少程度,Anthropic 推荐调整努力程度。

使用较低努力程度可获得更快的响应和更低的令牌使用量。使用较高努力程度可获得最高智能和能力。

Boris Cherny 表示,大多数任务可以使用 xhigh 努力程度,对最困难的任务使用 max 努力程度。Max 仅适用于当前的会话;其他努力程度是粘性的,并将在下一次会话中持续存在。

/effort 用于设置努力程度。

Image 50: 图片 6、给 Claude 一个验证其工作的方式

最后,确保 Claude 有一种验证其工作的方式。这一直是一种能让你从 Claude 获得 2-3 倍产出的方法,而且在 4.7 版本中,这比以往任何时候都更重要。

验证方式因任务而异。对于后端工作,确保 Claude 知道如何启动您的服务器 / 服务来进行端到端测试;对于前端工作,使用 Claude Chromium 扩展程序,让 Claude 能够控制您的浏览器;对于桌面应用,使用 computer use。

Boris Cherny 称自己最近的许多提示都像这样:「Claude 做 blah blah /go」。/go 是一种技能,它让 Claude 1)使用 bash、浏览器或 computer use 进行端到端自我测试;2)运行 /simplify 技能;3)提交一个 PR。

上周 Anthropic 发布了 「Project Glasswing」项目,重点阐述了人工智能模型在网络安全领域的风险与优势。Anthropic 宣布将限制 Claude Mythos Preview 的发布范围,并首先在功能较弱的模型上测试新的网络安全防护措施。

Opus 4.7 即是首个此类模型:其网络安全能力不如 Mythos Preview(Anthropic 表示在训练过程中尝试了多种方法来逐步降低其网络安全能力)。发布时的 Opus 4.7 配备了安全防护措施,能够自动检测并阻止表明存在违禁或高风险网络安全用途的请求。

Anthropic 将从这些安全防护措施的实际部署中获得经验,从而最终实现 Mythos 级模型的广泛发布目标。

总体而言,Opus 4.7 的安全性能与 Opus 4.6 相似:Anthropic 的评估显示,其出现欺骗、奉承和与滥用者合作等令人担忧的行为的比例较低。在某些指标上,例如诚实度和抵御恶意「快速注入」攻击的能力,Opus 4.7 比 Opus 4.6 有所改进;但在其他指标,例如在管制药物方面提供过于详细的减害建议的倾向上 Opus 4.7 略有不足。

Anthropic 的一致性评估得出结论,该模型「总体上一致性良好且值得信赖,但其行为并非完全理想」。值得注意的是,根据评估,Mythos Preview 仍然是一致性最佳的模型。

Image 51: 图片 根据自动化行为审核,总体行为偏差得分如上。

除了 Claude Opus 4.7 本身之外,Anthropic 还将推出以下更新:

更精细的难度控制:Opus 4.7 新增了一个介于 high 和 max 之间的 xhigh「超高」级别,使用户能够更精确地控制在解决难题时推理速度和延迟之间的权衡。在 Claude Code 中,Anthropic 已将所有套餐的默认级别提升至 xhigh。在测试 Opus 4.7 的编码和智能体应用场景时,建议从 high 或 xhigh 级别开始。

在 Claude 平台(API)上:除了支持更高分辨率的图像外,Anthropic 还在公开测试版中推出了任务预算,让开发者能够引导 Claude 的 token 支出,以便它可以优先处理较长时间内的工作。

在 Claude Code 中:新增的 /ultrareview 斜杠命令会创建一个专门的审查会话,读取所有更改并标记出细心的审查员能够发现的错误和设计问题。Anthropic 为 Claude Code Pro 和 Max 用户提供三次免费的超强审查机会供试用。Anthropic 还将自动模式扩展到了 Max 用户。自动模式是一项新的权限选项,Claude 会替你做出决策,这意味着可以运行更长时间的任务,减少中断,并且比人类选择跳过所有权限的风险更低。

Opus 4.7 是 Opus 4.6 的直接升级版,但有两个变化值得关注,因为它们会影响 token 的使用。首先,Opus 4.7 使用了更新的分词器,改进了模型处理文本的方式。因此外界认为它大概率是一个新的基础模型,甚至可能是从 Mythos 提炼而来的。

但代价是,相同的输入可能会映射到更多的词元 —— 根据内容类型的不同,大约增加 1.0 到 1.35 倍。其次,Opus 4.7 在高难度任务下会进行更多思考,尤其是在主动语态场景的后期回合。这提高了模型在解决难题时的可靠性,但也意味着它会产生更多的输出 token。

人们也发现,Opus 4.7 的知识截止日期更新了:

Image 52: 图片 用户可以通过多种方式控制 token 的使用:例如使用工作量参数、调整任务预算或引导模型简化代码。在 Anthropic 自己的测试中,最终效果是积极的 —— 内部编码评估显示,所有工作量级别的令牌使用率均有所提高(如下所示)—— 但 Anthropic 建议在实际流量上进行评估。

Anthropic 还编写了迁移指南(https://platform.claude.com/docs/en/about-claude/models/migration-guide#migrating-to-claude-opus-4-7),提供了从 Opus 4.6 升级到 Opus 4.7 的更多建议。

Image 53: 图片 根据每个工作量级别下 token 使用情况,对内部智能编码评估进行评分。在此评估中,模型在单个用户提示下自主运行,因此结果可能无法代表交互式编码中的 token 使用情况。

在 Opus 4.7 发布后,人们开始大规模测试评价,大多数使用者认为新模型效果不错,也有人表示其 token 消耗非常惊人(pro 问两三个问题就没额度了)。

同样是在昨天晚上,千问开源了 Qwen3.6-35B-A3B(350 亿参数,激活 30 亿),有人还表示,在自己 MacBook Pro M5 上通过 LM Studio(以及 llm-lmstudio 插件)运行的千问模型生成「鹈鹕骑自行车」效果要比 Opus 4.7 好。

Image 54: 图片 当然这不能就说明 Qwen3.6-35B-A3B 更强了。

更多的使用情况,还有待大家的进一步验证。

参考内容:

https://www.anthropic.com/news/claude-opus-4-7

https://x.com/bcherny/status/2044847848035156457

https://qwen.ai/blog?id=qwen3.6-35b-a3b

https://simonwillison.net/2026/Apr/16/qwen-beats-opus/