AI 代码智能体的第一名换了。2026 年 4 月,Claude Opus 4.7 在 SWE-bench Pro 上拿到了 64.3%,超过了 GPT-5.4(57.7%)和 Gemini 3.1 Pro(54.2%)。 现在这个模型登陆了 Amazon Bedrock。这不只是"多了一个接入渠道"——来到 Bedrock 之后,有些东西确实变了。
64.3% 是什么意思?
有个叫 SWE-bench 的基准测试。它衡量 AI 能解决多少真实 GitHub 开源仓库里的 bug 和功能请求。SWE-bench Pro 是最难的版本——处理的是主流开源项目的真实生产问题。这是衡量"代码智能体在现实中有多好用"最贴近实际的指标。
Opus 4.7 在这里得了 64.3%。 上一代 Opus 4.6 是 53.4%,提升了 10.9 个百分点。比 GPT-5.4(57.7%)高 6.6 个点,比 Gemini 3.1 Pro(54.2%)高 10.1 个点。 如果你在构建或使用代码智能体,这个差距在实际体验上确实能感受到。
不只是代码。衡量 AI 工具使用能力的 MCP-Atlas 里,Opus 4.7 也以 77.3% 超过了 GPT-5.4(75.3%)和 Gemini(73.9%)。 这是构建多智能体工作流最直接相关的指标。不过网络研究指标 BrowseComp 从 4.6 的 83.7% 下降到了 79.3%。 专注于代码和工具使用,在网络搜索上做了取舍。
视觉能力也大幅提升了。支持图像分辨率最高达 2,576 像素(长边),是之前模型的 3 倍以上。 对 UI 截图分析、复杂图表解读、高密度文档处理都有直接影响。CharXiv 视觉推理得分从 69.1% 提升到 82.1%,上升了 13 个点。
到底变了什么?
Opus 4.7 在技术上最大的变化是 Adaptive Thinking。 在 Opus 4.6 之前,需要手动设置 thinking.type: "enabled" 和 budget_tokens。开发者要告诉模型"这个任务最多用 1000 个推理 token"或"那个任务用 5000 个"。4.7 把这个去掉了。
4.7 只需要 thinking.type: "adaptive" 就够了。模型自己判断任务复杂度,自动分配推理 token。 简单问题少用计算,复杂重构深入思考。不需要调 budget_tokens,自动优化。
| Opus 4.6 | Opus 4.7 | |
|---|---|---|
| 推理设置 | thinking.type: "enabled" + 手动 budget_tokens | 只需 thinking.type: "adaptive" |
| temperature/top_p | 可以调整 | 不支持 — 需要从请求中删除 |
| SWE-bench Pro | 53.4% | 64.3% (+10.9分) |
| 图像分辨率 | 原有水平 | 最高 2,576px 长边(3 倍以上) |
| 提示词缓存 TTL | 5 分钟 | 5 分钟·1 小时可选 |
| 视觉推理 (CharXiv) | 69.1% | 82.1% (+13分) |
从 4.6 迁移时的注意事项
把 Opus 4.6 的代码直接接到 4.7 会报 400 错误。需要把 thinking.type 改为 "adaptive",并完全删除 temperature、top_p、top_k 参数。 budget_tokens 也不能用了——Adaptive Thinking 会自动替代。
价格不变。输入 token $5/M,输出 token $25/M——和 Opus 4.6 一样。 但新的分词器可能会让相同内容的 token 数增加 1.0–1.35 倍。 实际费用可能会小幅上涨,请注意。
核心总结:在 Bedrock 上开始
- 准备 AWS 账号 + Bedrock API 密钥
在 Amazon Bedrock 控制台生成 API 密钥,设置为AWS_BEARER_TOKEN_BEDROCK环境变量。 - 安装 SDK
Messages API 方式:pip install -U "anthropic[bedrock]"。Converse/Invoke API 方式:pip install boto3。选一个就行。 - 发送第一个请求
模型 ID 是anthropic.claude-opus-4-7,默认区域是us-east-1。thinking 参数只用{"type": "adaptive"}——用 enabled 或 budget_tokens 会报 400 错误。 - 用提示词缓存优化成本
对重复使用的系统提示或文档设置缓存检查点(最少 4,096 token)。可选 5 分钟或 1 小时 TTL,大幅降低重复调用成本。 - 用 Geo 推理减少延迟
从亚洲访问的话,用jp.anthropic.claude-opus-4-7(东京·大阪路由)或global.anthropic.claude-opus-4-7可以自动连接到最优区域。
Bedrock 的企业级优势
Bedrock 的下一代推理引擎会阻止运营商访问客户数据。 如果你已经在 AWS 上使用 VPC、IAM、CloudWatch,不需要额外的安全配置就能获得企业级数据隔离。
想深入了解
Introducing Claude Opus 4.7 — Anthropic 官方发布帖子。涵盖 Adaptive Thinking 设计原则、安全评估和各平台可用状态。 anthropic.com
Claude Opus 4.7 in Amazon Bedrock — AWS Blog 官方 Bedrock 发布帖子。包含 Playground 演示、API 代码示例和区域可用性详情。 aws.amazon.com
Claude Opus 4.7 Benchmarks Explained — Vellum AI 对 MCP-Atlas、OSWorld、CharXiv 等详细基准数据和与 GPT-5.4、Gemini 3.1 Pro 的对比分析。 vellum.ai
Amazon Bedrock Model Card — AWS Docs Adaptive Thinking 迁移指南、提示词缓存设置、服务层级和区域路由详细规格。 docs.aws.amazon.com
Claude Opus 4.7 vs GPT-5.5 — DataCamp 从代码、推理和价格角度对比两个模型。包含 GPT-5.5 仍领先的领域(Terminal-Bench)。 datacamp.com




