cdn.sanity.io

Claude Opus 4.7:夺回SWE-bench榜首,却是吃token的怪兽

Claude Opus 4.7, SWE-bench, token成本, Agentic AI, Anthropic开发

Introducing Claude Opus 4.7 — Anthropic 공식 발표

Anthropic releases Claude Opus 4.7, narrowly retaking lead for most powerful GA LLM

Claude Opus 4.7 leads on SWE-bench and agentic reasoning

SWE-bench榜首回来了。Claude Opus 4.7在各项编码基准上力压GPT-5.4和Gemini 3.1 Pro,重新登顶——但用过之后,你的token钱包会瞬间见底。

3秒速览

是什么: Anthropic最新旗舰模型Claude Opus 4.7正式发布(2026.4.16)

核心: SWE-bench Pro 64.3%夺回编码第一,视觉分辨率提升3倍,智能体工作流改进14%

代价: 新分词器让同一输入的token数最多增加1.35倍,高推理档位下输出token也暴涨

这是什么?

Anthropic在4月16日发布的Opus 4.7,是上一代Opus 4.6的直接升级版。Anthropic的核心宣传语是:“最难的编码任务,可以放心交给它,无需监督。”

实际上,这款模型的自我验证(self-verification)能力非常突出。在一次测试中,它用Rust从零构建了一个文本转语音引擎,然后把自己生成的音频送入另一个语音识别器,自行核对结果是否与Python参考实现一致。相当于独立完成了资深工程师几个月的工作量。

关键变化: Opus 4.7会“按字面”执行指令。以前模型会宽松解读的prompt,现在会被严格照做,所以沿用旧prompt可能产生意外结果。Anthropic官方建议重新调校prompt。

价格与Opus 4.6相同,输入5美元/输出25美元(每百万token),可在Claude API、Amazon Bedrock、Google Cloud Vertex AI和Microsoft Foundry直接使用。

有什么不同?

先看基准测试数字。Opus 4.7并非“全领域第一”,但在开发者实际使用的场景里占据明显优势。

基准测试	Opus 4.6	Opus 4.7	GPT-5.4	Gemini 3.1 Pro
SWE-bench Verified	80.8%	87.6%	-	80.6%
SWE-bench Pro	53.4%	64.3%	57.7%	54.2%
MCP-Atlas(工具调用)	75.8%	77.3%	68.1%	73.9%
OSWorld(电脑操作)	72.7%	78.0%	75.0%	-
GPQA Diamond(推理)	91.3%	94.2%	94.4%	94.3%
BrowseComp(检索)	83.7%	79.3%	89.3%	85.9%
GDPVal-AA(知识劳动Elo)	-	1,753	1,674	1,314

编码和工具调用稳坐第一,纯推理是“三强并列”,网页检索(BrowseComp)反而下降了4.4个百分点。它不是全能型,而是编码·智能体专用型。

注意: BrowseComp上Opus 4.7(79.3%)反而低于4.6(83.7%)。如果你运营的是以网页调研为核心的智能体,GPT-5.4 Pro(89.3%)或Gemini 3.1 Pro(85.9%)是更好的选择。

视觉清晰度翻了3倍

图像处理分辨率最高提升到2,576px(长边,约375万像素),是上一代的3倍以上。自主安全测试公司XBOW验证了视觉精度从54.5%跃升至98.5%。读取截图的电脑操作智能体、解析复杂技术图表、浏览高密度UI——以前“太糊看不清”的场景,现在都能处理了。

智能体工作流的真实改进

有些变化无法用单一数字概括。

+14%

Notion:多步骤工作流成功率提升,工具错误降至1/3

Rakuten:SWE-Bench上相比4.6解决了3倍生产任务

70%

Cursor:CursorBench得分(4.6为58%),自主编码性能大幅提升

Cognition(Devin)的CEO评价:“4.7能保持数小时的一致工作状态,面对难题也不轻易放弃。”Factory Droids表示“原本会半途而废的模型,现在能坚持到底”;Replit的负责人则形容它“像一位能在技术讨论中提出反驳意见的同事”。

token消耗这个阴影

问题来了。Opus 4.7的确“想得更多,也花得更多”。

token增加的两大原因:
1. 新分词器——同一输入会变成1.0~1.35倍的token。
2. 深度推理——尤其在智能体场景的后期轮次,输出token大幅增加。

Decrypt的实测中,出现过单次会话就耗尽全部token配额的情况。模型完成全部代码后,以“修复bug并优化”为名从头重写整份代码,然后再次重写——这种行为在Opus 4.6身上从未出现过。

Anthropic也意识到这个问题,推出了新的effort参数和task budget。

Effort档位	特点	推荐场景
low/medium	响应快,推理最少	简单查询、数据转换
high	均衡推理	常规编码、分析
xhigh(新增)	深度推理,介于high和max之间	复杂智能体编码(Claude Code默认值)
max	最大推理,最大token	仅用于最棘手的问题

Task budget目前为公开测试版,可为智能体的token用量设置上限,避免意外产生的高额账单。

上手指南

从Opus 4.6迁移到4.7时需要注意的要点整理如下。

先重新调校prompt
4.7会字面执行指令,“你看着办”这类宽松的prompt可能产生意外结果。先用代表性流量测试后再切换。
设置Effort档位
编码/智能体任务建议从high或xhigh起步。max仅用于最难的问题。Claude Code默认就是xhigh。
测量token成本
新分词器会让同样输入多消耗最多35%的token。请先用真实流量测试成本变化。
善用Task Budget
长时间运行智能体时,用API的task budget(测试版)设定token上限,防止意外扣费。
网页检索智能体要留心
BrowseComp分数下降,以调研为主的工作流建议同时评估GPT-5.4 Pro。

同步推出的新功能

随Opus 4.7一起发布的还有这些更新。

/ultrareview——Claude Code中以资深评审员标准检查变更的专用评审会话。Pro/Max用户可免费使用3次。

Auto Mode扩展——Max用户也可使用让Claude自主决策的Auto Mode,长时间任务中无需中断。

Cyber Verification Program——面向安全专家(渗透测试、漏洞研究等)开放Opus 4.7网络安全能力的认证计划。

深入了解

Anthropic官方公告 包含Opus 4.7的基准测试、安全性概览和迁移指南的完整发布文。 anthropic.com

Vellum基准分析 SWE-bench、MCP-Atlas、GPQA Diamond等主要基准的详细对比,以及不同迁移场景的建议。 vellum.ai

Decrypt实测评测 用游戏开发prompt直接测试的结果——史上最佳品质,但单次会话就耗尽全部token配额。 decrypt.co

VentureBeat深度分析 企业视角的迁移策略和Anthropic市场定位分析。 venturebeat.com

TNW技术摘要 简洁整理了价格、可用性和核心基准的科技媒体评测。 thenextweb.com

Claude Opus 4.7迁移指南 从Opus 4.6切换到4.7的注意事项和effort档位调参方法。 platform.claude.com

常见问题

Opus 4.7一定比GPT-5.4好吗?

不一定。在编码(SWE-bench Pro 64.3% vs 57.7%)和工具调用(MCP-Atlas 77.3% vs 68.1%)上Opus 4.7领先,但网页检索(BrowseComp 89.3% vs 79.3%)和推理(HLE 58.7% vs 54.7%)上GPT-5.4占优。要看具体用途。

token成本会增加多少?

定价本身相同(每百万token输入5美元/输出25美元),但因为新分词器,同样文本会变成1.0~1.35倍的token。再加上高effort档位下推理token的增加,实际开销可能明显上升。

可以直接从4.6切到4.7吗?

直接替换可能让现有prompt行为和预期不符。Opus 4.7按字面执行指令,写得宽松的prompt一定要先重新调校再切换。Anthropic也建议分阶段迁移。

作者拉什

追踪商业与AI的交汇点。

这个参考对您有帮助吗？

每周精选参考直达您的邮箱

分享此参考

8年只想不动手的产品,我用AI编程代理3个月做完了

Google资深工程师把搁置8年的开源项目,用AI编程代理3个月内做出来了。从Vibe Coding的失败、推倒重写,到AI真正擅长与不擅长的事——一份用250小时实战记录证明的复盘。

你可能还感兴趣

其他读者也在看的参考

Cursor 估值冲击 500 亿美元 — 6 个月翻倍,AI 编程工具市场全面爆发

pymnts.com

Cursor爆发式增长至500亿美元估值，预示AI编程工具市场大变局

Cursor 估值冲击 500 亿美元 — 6 个月翻倍,AI 编程工具市场全面爆发

ARR 突破 20 亿美元,3 个月营收翻倍。并行 Agent、MCP Apps、JetBrains 集成——Cursor 揭示 AI 编程市场的真实规模与未来走向。

查看详情

cdn.infograb.io

Claude Skills

只需教AI一次 — Claude Skills 33页指南完整整理

Anthropic公开的33页官方指南核心总结。用一个文件夹向Claude传授业务诀窍的Skills功能——节省50%token，消息15次→2次，还可以全团队共享。

查看详情

下一篇 →8年只想不动手的产品,我用AI编程代理3个月做完了