SWE-bench榜首回来了。Claude Opus 4.7在各项编码基准上力压GPT-5.4和Gemini 3.1 Pro,重新登顶——但用过之后,你的token钱包会瞬间见底。

3秒速览

是什么: Anthropic最新旗舰模型Claude Opus 4.7正式发布(2026.4.16)

核心: SWE-bench Pro 64.3%夺回编码第一,视觉分辨率提升3倍,智能体工作流改进14%

代价: 新分词器让同一输入的token数最多增加1.35倍,高推理档位下输出token也暴涨

这是什么?

Anthropic在4月16日发布的Opus 4.7,是上一代Opus 4.6的直接升级版。Anthropic的核心宣传语是:“最难的编码任务,可以放心交给它,无需监督。”

实际上,这款模型的自我验证(self-verification)能力非常突出。在一次测试中,它用Rust从零构建了一个文本转语音引擎,然后把自己生成的音频送入另一个语音识别器,自行核对结果是否与Python参考实现一致。相当于独立完成了资深工程师几个月的工作量。

关键变化: Opus 4.7会“按字面”执行指令。以前模型会宽松解读的prompt,现在会被严格照做,所以沿用旧prompt可能产生意外结果。Anthropic官方建议重新调校prompt。

价格与Opus 4.6相同,输入5美元/输出25美元(每百万token),可在Claude API、Amazon Bedrock、Google Cloud Vertex AI和Microsoft Foundry直接使用。

有什么不同?

先看基准测试数字。Opus 4.7并非“全领域第一”,但在开发者实际使用的场景里占据明显优势。

基准测试Opus 4.6Opus 4.7GPT-5.4Gemini 3.1 Pro
SWE-bench Verified80.8%87.6%-80.6%
SWE-bench Pro53.4%64.3%57.7%54.2%
MCP-Atlas(工具调用)75.8%77.3%68.1%73.9%
OSWorld(电脑操作)72.7%78.0%75.0%-
GPQA Diamond(推理)91.3%94.2%94.4%94.3%
BrowseComp(检索)83.7%79.3%89.3%85.9%
GDPVal-AA(知识劳动Elo)-1,7531,6741,314

编码和工具调用稳坐第一,纯推理是“三强并列”,网页检索(BrowseComp)反而下降了4.4个百分点。它不是全能型,而是编码·智能体专用型

注意: BrowseComp上Opus 4.7(79.3%)反而低于4.6(83.7%)。如果你运营的是以网页调研为核心的智能体,GPT-5.4 Pro(89.3%)或Gemini 3.1 Pro(85.9%)是更好的选择。

视觉清晰度翻了3倍

图像处理分辨率最高提升到2,576px(长边,约375万像素),是上一代的3倍以上。自主安全测试公司XBOW验证了视觉精度从54.5%跃升至98.5%。读取截图的电脑操作智能体、解析复杂技术图表、浏览高密度UI——以前“太糊看不清”的场景,现在都能处理了。

智能体工作流的真实改进

有些变化无法用单一数字概括。

+14%
Notion:多步骤工作流成功率提升,工具错误降至1/3
3x
Rakuten:SWE-Bench上相比4.6解决了3倍生产任务
70%
Cursor:CursorBench得分(4.6为58%),自主编码性能大幅提升

Cognition(Devin)的CEO评价:“4.7能保持数小时的一致工作状态,面对难题也不轻易放弃。”Factory Droids表示“原本会半途而废的模型,现在能坚持到底”;Replit的负责人则形容它“像一位能在技术讨论中提出反驳意见的同事”。

token消耗这个阴影

问题来了。Opus 4.7的确“想得更多,也花得更多”。

token增加的两大原因:
1. 新分词器——同一输入会变成1.0~1.35倍的token。
2. 深度推理——尤其在智能体场景的后期轮次,输出token大幅增加。

Decrypt的实测中,出现过单次会话就耗尽全部token配额的情况。模型完成全部代码后,以“修复bug并优化”为名从头重写整份代码,然后再次重写——这种行为在Opus 4.6身上从未出现过。

Anthropic也意识到这个问题,推出了新的effort参数task budget

Effort档位特点推荐场景
low/medium响应快,推理最少简单查询、数据转换
high均衡推理常规编码、分析
xhigh(新增)深度推理,介于high和max之间复杂智能体编码(Claude Code默认值)
max最大推理,最大token仅用于最棘手的问题

Task budget目前为公开测试版,可为智能体的token用量设置上限,避免意外产生的高额账单。

上手指南

从Opus 4.6迁移到4.7时需要注意的要点整理如下。

  1. 先重新调校prompt
    4.7会字面执行指令,“你看着办”这类宽松的prompt可能产生意外结果。先用代表性流量测试后再切换。
  2. 设置Effort档位
    编码/智能体任务建议从highxhigh起步。max仅用于最难的问题。Claude Code默认就是xhigh。
  3. 测量token成本
    新分词器会让同样输入多消耗最多35%的token。请先用真实流量测试成本变化。
  4. 善用Task Budget
    长时间运行智能体时,用API的task budget(测试版)设定token上限,防止意外扣费。
  5. 网页检索智能体要留心
    BrowseComp分数下降,以调研为主的工作流建议同时评估GPT-5.4 Pro。

同步推出的新功能

随Opus 4.7一起发布的还有这些更新。

01
/ultrareview——Claude Code中以资深评审员标准检查变更的专用评审会话。Pro/Max用户可免费使用3次。
02
Auto Mode扩展——Max用户也可使用让Claude自主决策的Auto Mode,长时间任务中无需中断。
03
Cyber Verification Program——面向安全专家(渗透测试、漏洞研究等)开放Opus 4.7网络安全能力的认证计划。

深入了解

Anthropic官方公告 包含Opus 4.7的基准测试、安全性概览和迁移指南的完整发布文。 anthropic.com

Vellum基准分析 SWE-bench、MCP-Atlas、GPQA Diamond等主要基准的详细对比,以及不同迁移场景的建议。 vellum.ai

Decrypt实测评测 用游戏开发prompt直接测试的结果——史上最佳品质,但单次会话就耗尽全部token配额。 decrypt.co

VentureBeat深度分析 企业视角的迁移策略和Anthropic市场定位分析。 venturebeat.com

TNW技术摘要 简洁整理了价格、可用性和核心基准的科技媒体评测。 thenextweb.com

Claude Opus 4.7迁移指南 从Opus 4.6切换到4.7的注意事项和effort档位调参方法。 platform.claude.com