Claude Opus 4.7 SWE-bench 벤치마크 비교 — Vellum AI

cdn.sanity.io

AI 代码智能体排名变了 — Claude Opus 4.7 超越 GPT-5.4 的真正原因

Claude Opus 4.7, Amazon Bedrock, SWE-bench, Adaptive Thinking, 代码智能体开发

Introducing Anthropic's Claude Opus 4.7 model in Amazon Bedrock

Introducing Claude Opus 4.7

Claude Opus 4.7 — Amazon Bedrock Model Card

AI 代码智能体的第一名换了。2026 年 4 月，Claude Opus 4.7 在 SWE-bench Pro 上拿到了 64.3%，超过了 GPT-5.4（57.7%）和 Gemini 3.1 Pro（54.2%）。现在这个模型登陆了 Amazon Bedrock。这不只是"多了一个接入渠道"——来到 Bedrock 之后，有些东西确实变了。

3秒总结

SWE-bench Pro 第一 → 引入 Adaptive Thinking → temperature 参数废除 → Bedrock 企业级基础设施 → 3 行代码开始

64.3% 是什么意思?

有个叫 SWE-bench 的基准测试。它衡量 AI 能解决多少真实 GitHub 开源仓库里的 bug 和功能请求。SWE-bench Pro 是最难的版本——处理的是主流开源项目的真实生产问题。这是衡量"代码智能体在现实中有多好用"最贴近实际的指标。

Opus 4.7 在这里得了 64.3%。上一代 Opus 4.6 是 53.4%，提升了 10.9 个百分点。比 GPT-5.4（57.7%）高 6.6 个点，比 Gemini 3.1 Pro（54.2%）高 10.1 个点。如果你在构建或使用代码智能体，这个差距在实际体验上确实能感受到。

64.3%

SWE-bench Pro (Opus 4.7)

87.6%

SWE-bench Verified

77.3%

MCP-Atlas 工具使用（最高）

不只是代码。衡量 AI 工具使用能力的 MCP-Atlas 里，Opus 4.7 也以 77.3% 超过了 GPT-5.4（75.3%）和 Gemini（73.9%）。这是构建多智能体工作流最直接相关的指标。不过网络研究指标 BrowseComp 从 4.6 的 83.7% 下降到了 79.3%。专注于代码和工具使用，在网络搜索上做了取舍。

视觉能力也大幅提升了。支持图像分辨率最高达 2,576 像素（长边），是之前模型的 3 倍以上。对 UI 截图分析、复杂图表解读、高密度文档处理都有直接影响。CharXiv 视觉推理得分从 69.1% 提升到 82.1%，上升了 13 个点。

到底变了什么?

Opus 4.7 在技术上最大的变化是 Adaptive Thinking。在 Opus 4.6 之前，需要手动设置 thinking.type: "enabled" 和 budget_tokens。开发者要告诉模型"这个任务最多用 1000 个推理 token"或"那个任务用 5000 个"。4.7 把这个去掉了。

4.7 只需要 thinking.type: "adaptive" 就够了。模型自己判断任务复杂度，自动分配推理 token。简单问题少用计算，复杂重构深入思考。不需要调 budget_tokens，自动优化。

	Opus 4.6	Opus 4.7
推理设置	thinking.type: "enabled" + 手动 budget_tokens	只需 thinking.type: "adaptive"
temperature/top_p	可以调整	不支持 — 需要从请求中删除
SWE-bench Pro	53.4%	64.3% (+10.9分)
图像分辨率	原有水平	最高 2,576px 长边（3 倍以上）
提示词缓存 TTL	5 分钟	5 分钟·1 小时可选
视觉推理 (CharXiv)	69.1%	82.1% (+13分)

从 4.6 迁移时的注意事项

把 Opus 4.6 的代码直接接到 4.7 会报 400 错误。需要把 thinking.type 改为 "adaptive"，并完全删除 temperature、top_p、top_k 参数。 budget_tokens 也不能用了——Adaptive Thinking 会自动替代。

价格不变。输入 token $5/M，输出 token $25/M——和 Opus 4.6 一样。但新的分词器可能会让相同内容的 token 数增加 1.0–1.35 倍。实际费用可能会小幅上涨，请注意。

核心总结：在 Bedrock 上开始

准备 AWS 账号 + Bedrock API 密钥
在 Amazon Bedrock 控制台生成 API 密钥，设置为 AWS_BEARER_TOKEN_BEDROCK 环境变量。
安装 SDK
Messages API 方式：pip install -U "anthropic[bedrock]"。Converse/Invoke API 方式：pip install boto3。选一个就行。
发送第一个请求
模型 ID 是 anthropic.claude-opus-4-7，默认区域是 us-east-1。thinking 参数只用 {"type": "adaptive"}——用 enabled 或 budget_tokens 会报 400 错误。
用提示词缓存优化成本
对重复使用的系统提示或文档设置缓存检查点（最少 4,096 token）。可选 5 分钟或 1 小时 TTL，大幅降低重复调用成本。
用 Geo 推理减少延迟
从亚洲访问的话，用 jp.anthropic.claude-opus-4-7（东京·大阪路由）或 global.anthropic.claude-opus-4-7 可以自动连接到最优区域。

Bedrock 的企业级优势

Bedrock 的下一代推理引擎会阻止运营商访问客户数据。如果你已经在 AWS 上使用 VPC、IAM、CloudWatch，不需要额外的安全配置就能获得企业级数据隔离。

想深入了解

Introducing Claude Opus 4.7 — Anthropic 官方发布帖子。涵盖 Adaptive Thinking 设计原则、安全评估和各平台可用状态。 anthropic.com

Claude Opus 4.7 in Amazon Bedrock — AWS Blog 官方 Bedrock 发布帖子。包含 Playground 演示、API 代码示例和区域可用性详情。 aws.amazon.com

Claude Opus 4.7 Benchmarks Explained — Vellum AI 对 MCP-Atlas、OSWorld、CharXiv 等详细基准数据和与 GPT-5.4、Gemini 3.1 Pro 的对比分析。 vellum.ai

Amazon Bedrock Model Card — AWS Docs Adaptive Thinking 迁移指南、提示词缓存设置、服务层级和区域路由详细规格。 docs.aws.amazon.com

Claude Opus 4.7 vs GPT-5.5 — DataCamp 从代码、推理和价格角度对比两个模型。包含 GPT-5.5 仍领先的领域（Terminal-Bench）。 datacamp.com

常见问题

可以直接将 Opus 4.6 的代码用于 4.7 吗？

直接用会报 400 错误。需要把 thinking.type 改为 'adaptive'，并完全删除 temperature、top_p、top_k 参数。budget_tokens 也不能用了——Adaptive Thinking 会自动替代。

SWE-bench 分数高就意味着在我的实际项目里也更好吗？

通常有相关性。SWE-bench Pro 使用真实的生产问题，是最接近现实表现的基准测试。不过，如果代码库有很多领域特定代码或内部库，体验上的差距可能会小一些。在自己的项目上做 A/B 测试是最准确的方法。

Adaptive Thinking 自动分配 token，成本预测会不会变难？

这个担心有道理。推理 token 每次调用都不一样，成本会有波动。应对方法是把提示词缓存（4,096 token 以上的重复内容）和 Bedrock 的 Flex 服务层级（非时间敏感的任务）结合起来，降低平均成本。

2,576px 的图像分析在代码智能体里怎么用？

发送 UI 截图并问'这个界面有什么 bug'是最典型的用法。也可以传架构图做代码结构审查，或者提交错误堆栈截图进行分析。高分辨率支持让密度大的文档和代码截图现在都能被准确读取了。

从中国或亚洲使用 Bedrock 延迟会不会很高？

直接连 us-east-1（弗吉尼亚）延迟确实会高。使用 jp.anthropic.claude-opus-4-7 的 Geo ID 可以自动路由到东京·大阪节点，延迟大幅降低。global.anthropic.claude-opus-4-7 也是个好选择，会自动选择最优区域。

作者拉什

追踪商业与AI的交汇点。

这个参考对您有帮助吗？

每周精选参考直达您的邮箱

分享此参考

8年只想不动手的产品,我用AI编程代理3个月做完了

Google资深工程师把搁置8年的开源项目,用AI编程代理3个月内做出来了。从Vibe Coding的失败、推倒重写,到AI真正擅长与不擅长的事——一份用250小时实战记录证明的复盘。

你可能还感兴趣

其他读者也在看的参考

Cursor 估值冲击 500 亿美元 — 6 个月翻倍,AI 编程工具市场全面爆发

pymnts.com

Cursor爆发式增长至500亿美元估值，预示AI编程工具市场大变局

Cursor 估值冲击 500 亿美元 — 6 个月翻倍,AI 编程工具市场全面爆发

ARR 突破 20 亿美元,3 个月营收翻倍。并行 Agent、MCP Apps、JetBrains 集成——Cursor 揭示 AI 编程市场的真实规模与未来走向。

查看详情

cdn.infograb.io

Claude Skills

只需教AI一次 — Claude Skills 33页指南完整整理

Anthropic公开的33页官方指南核心总结。用一个文件夹向Claude传授业务诀窍的Skills功能——节省50%token，消息15次→2次，还可以全团队共享。

查看详情

下一篇 →8年只想不动手的产品,我用AI编程代理3个月做完了