SWE-bench榜首回来了。Claude Opus 4.7在各项编码基准上力压GPT-5.4和Gemini 3.1 Pro,重新登顶——但用过之后,你的token钱包会瞬间见底。
是什么: Anthropic最新旗舰模型Claude Opus 4.7正式发布(2026.4.16)
核心: SWE-bench Pro 64.3%夺回编码第一,视觉分辨率提升3倍,智能体工作流改进14%
代价: 新分词器让同一输入的token数最多增加1.35倍,高推理档位下输出token也暴涨
这是什么?
Anthropic在4月16日发布的Opus 4.7,是上一代Opus 4.6的直接升级版。Anthropic的核心宣传语是:“最难的编码任务,可以放心交给它,无需监督。”
实际上,这款模型的自我验证(self-verification)能力非常突出。在一次测试中,它用Rust从零构建了一个文本转语音引擎,然后把自己生成的音频送入另一个语音识别器,自行核对结果是否与Python参考实现一致。相当于独立完成了资深工程师几个月的工作量。
关键变化: Opus 4.7会“按字面”执行指令。以前模型会宽松解读的prompt,现在会被严格照做,所以沿用旧prompt可能产生意外结果。Anthropic官方建议重新调校prompt。
价格与Opus 4.6相同,输入5美元/输出25美元(每百万token),可在Claude API、Amazon Bedrock、Google Cloud Vertex AI和Microsoft Foundry直接使用。
有什么不同?
先看基准测试数字。Opus 4.7并非“全领域第一”,但在开发者实际使用的场景里占据明显优势。
| 基准测试 | Opus 4.6 | Opus 4.7 | GPT-5.4 | Gemini 3.1 Pro |
|---|---|---|---|---|
| SWE-bench Verified | 80.8% | 87.6% | - | 80.6% |
| SWE-bench Pro | 53.4% | 64.3% | 57.7% | 54.2% |
| MCP-Atlas(工具调用) | 75.8% | 77.3% | 68.1% | 73.9% |
| OSWorld(电脑操作) | 72.7% | 78.0% | 75.0% | - |
| GPQA Diamond(推理) | 91.3% | 94.2% | 94.4% | 94.3% |
| BrowseComp(检索) | 83.7% | 79.3% | 89.3% | 85.9% |
| GDPVal-AA(知识劳动Elo) | - | 1,753 | 1,674 | 1,314 |
编码和工具调用稳坐第一,纯推理是“三强并列”,网页检索(BrowseComp)反而下降了4.4个百分点。它不是全能型,而是编码·智能体专用型。
注意: BrowseComp上Opus 4.7(79.3%)反而低于4.6(83.7%)。如果你运营的是以网页调研为核心的智能体,GPT-5.4 Pro(89.3%)或Gemini 3.1 Pro(85.9%)是更好的选择。
视觉清晰度翻了3倍
图像处理分辨率最高提升到2,576px(长边,约375万像素),是上一代的3倍以上。自主安全测试公司XBOW验证了视觉精度从54.5%跃升至98.5%。读取截图的电脑操作智能体、解析复杂技术图表、浏览高密度UI——以前“太糊看不清”的场景,现在都能处理了。
智能体工作流的真实改进
有些变化无法用单一数字概括。
Cognition(Devin)的CEO评价:“4.7能保持数小时的一致工作状态,面对难题也不轻易放弃。”Factory Droids表示“原本会半途而废的模型,现在能坚持到底”;Replit的负责人则形容它“像一位能在技术讨论中提出反驳意见的同事”。
token消耗这个阴影
问题来了。Opus 4.7的确“想得更多,也花得更多”。
token增加的两大原因:
1. 新分词器——同一输入会变成1.0~1.35倍的token。
2. 深度推理——尤其在智能体场景的后期轮次,输出token大幅增加。
Decrypt的实测中,出现过单次会话就耗尽全部token配额的情况。模型完成全部代码后,以“修复bug并优化”为名从头重写整份代码,然后再次重写——这种行为在Opus 4.6身上从未出现过。
Anthropic也意识到这个问题,推出了新的effort参数和task budget。
| Effort档位 | 特点 | 推荐场景 |
|---|---|---|
| low/medium | 响应快,推理最少 | 简单查询、数据转换 |
| high | 均衡推理 | 常规编码、分析 |
| xhigh(新增) | 深度推理,介于high和max之间 | 复杂智能体编码(Claude Code默认值) |
| max | 最大推理,最大token | 仅用于最棘手的问题 |
Task budget目前为公开测试版,可为智能体的token用量设置上限,避免意外产生的高额账单。
上手指南
从Opus 4.6迁移到4.7时需要注意的要点整理如下。
- 先重新调校prompt
4.7会字面执行指令,“你看着办”这类宽松的prompt可能产生意外结果。先用代表性流量测试后再切换。 - 设置Effort档位
编码/智能体任务建议从high或xhigh起步。max仅用于最难的问题。Claude Code默认就是xhigh。 - 测量token成本
新分词器会让同样输入多消耗最多35%的token。请先用真实流量测试成本变化。 - 善用Task Budget
长时间运行智能体时,用API的task budget(测试版)设定token上限,防止意外扣费。 - 网页检索智能体要留心
BrowseComp分数下降,以调研为主的工作流建议同时评估GPT-5.4 Pro。
同步推出的新功能
随Opus 4.7一起发布的还有这些更新。
深入了解
Anthropic官方公告 包含Opus 4.7的基准测试、安全性概览和迁移指南的完整发布文。 anthropic.com
Vellum基准分析 SWE-bench、MCP-Atlas、GPQA Diamond等主要基准的详细对比,以及不同迁移场景的建议。 vellum.ai
Decrypt实测评测 用游戏开发prompt直接测试的结果——史上最佳品质,但单次会话就耗尽全部token配额。 decrypt.co
VentureBeat深度分析 企业视角的迁移策略和Anthropic市场定位分析。 venturebeat.com
TNW技术摘要 简洁整理了价格、可用性和核心基准的科技媒体评测。 thenextweb.com
Claude Opus 4.7迁移指南 从Opus 4.6切换到4.7的注意事项和effort档位调参方法。 platform.claude.com




