AI 代码智能体的第一名换了。2026 年 4 月,Claude Opus 4.7 在 SWE-bench Pro 上拿到了 64.3%,超过了 GPT-5.4(57.7%)和 Gemini 3.1 Pro(54.2%)。 现在这个模型登陆了 Amazon Bedrock。这不只是"多了一个接入渠道"——来到 Bedrock 之后,有些东西确实变了。

3秒总结
SWE-bench Pro 第一 引入 Adaptive Thinking temperature 参数废除 Bedrock 企业级基础设施 3 行代码开始

64.3% 是什么意思?

有个叫 SWE-bench 的基准测试。它衡量 AI 能解决多少真实 GitHub 开源仓库里的 bug 和功能请求。SWE-bench Pro 是最难的版本——处理的是主流开源项目的真实生产问题。这是衡量"代码智能体在现实中有多好用"最贴近实际的指标。

Opus 4.7 在这里得了 64.3%。 上一代 Opus 4.6 是 53.4%,提升了 10.9 个百分点。比 GPT-5.4(57.7%)高 6.6 个点,比 Gemini 3.1 Pro(54.2%)高 10.1 个点。 如果你在构建或使用代码智能体,这个差距在实际体验上确实能感受到。

64.3%
SWE-bench Pro (Opus 4.7)
87.6%
SWE-bench Verified
77.3%
MCP-Atlas 工具使用(最高)

不只是代码。衡量 AI 工具使用能力的 MCP-Atlas 里,Opus 4.7 也以 77.3% 超过了 GPT-5.4(75.3%)和 Gemini(73.9%)。 这是构建多智能体工作流最直接相关的指标。不过网络研究指标 BrowseComp 从 4.6 的 83.7% 下降到了 79.3%。 专注于代码和工具使用,在网络搜索上做了取舍。

视觉能力也大幅提升了。支持图像分辨率最高达 2,576 像素(长边),是之前模型的 3 倍以上。 对 UI 截图分析、复杂图表解读、高密度文档处理都有直接影响。CharXiv 视觉推理得分从 69.1% 提升到 82.1%,上升了 13 个点。

到底变了什么?

Opus 4.7 在技术上最大的变化是 Adaptive Thinking。 在 Opus 4.6 之前,需要手动设置 thinking.type: "enabled"budget_tokens。开发者要告诉模型"这个任务最多用 1000 个推理 token"或"那个任务用 5000 个"。4.7 把这个去掉了。

4.7 只需要 thinking.type: "adaptive" 就够了。模型自己判断任务复杂度,自动分配推理 token。 简单问题少用计算,复杂重构深入思考。不需要调 budget_tokens,自动优化。

Opus 4.6 Opus 4.7
推理设置 thinking.type: "enabled" + 手动 budget_tokens 只需 thinking.type: "adaptive"
temperature/top_p 可以调整 不支持 — 需要从请求中删除
SWE-bench Pro 53.4% 64.3% (+10.9分)
图像分辨率 原有水平 最高 2,576px 长边(3 倍以上)
提示词缓存 TTL 5 分钟 5 分钟·1 小时可选
视觉推理 (CharXiv) 69.1% 82.1% (+13分)

从 4.6 迁移时的注意事项

把 Opus 4.6 的代码直接接到 4.7 会报 400 错误。需要把 thinking.type 改为 "adaptive",并完全删除 temperaturetop_ptop_k 参数。 budget_tokens 也不能用了——Adaptive Thinking 会自动替代。

价格不变。输入 token $5/M,输出 token $25/M——和 Opus 4.6 一样。 但新的分词器可能会让相同内容的 token 数增加 1.0–1.35 倍。 实际费用可能会小幅上涨,请注意。

核心总结:在 Bedrock 上开始

  1. 准备 AWS 账号 + Bedrock API 密钥
    在 Amazon Bedrock 控制台生成 API 密钥,设置为 AWS_BEARER_TOKEN_BEDROCK 环境变量。
  2. 安装 SDK
    Messages API 方式:pip install -U "anthropic[bedrock]"。Converse/Invoke API 方式:pip install boto3。选一个就行。
  3. 发送第一个请求
    模型 ID 是 anthropic.claude-opus-4-7,默认区域是 us-east-1。thinking 参数只用 {"type": "adaptive"}——用 enabled 或 budget_tokens 会报 400 错误。
  4. 用提示词缓存优化成本
    对重复使用的系统提示或文档设置缓存检查点(最少 4,096 token)。可选 5 分钟或 1 小时 TTL,大幅降低重复调用成本。
  5. 用 Geo 推理减少延迟
    从亚洲访问的话,用 jp.anthropic.claude-opus-4-7(东京·大阪路由)或 global.anthropic.claude-opus-4-7 可以自动连接到最优区域。

Bedrock 的企业级优势

Bedrock 的下一代推理引擎会阻止运营商访问客户数据。 如果你已经在 AWS 上使用 VPC、IAM、CloudWatch,不需要额外的安全配置就能获得企业级数据隔离。

想深入了解

Introducing Claude Opus 4.7 — Anthropic 官方发布帖子。涵盖 Adaptive Thinking 设计原则、安全评估和各平台可用状态。 anthropic.com

Claude Opus 4.7 in Amazon Bedrock — AWS Blog 官方 Bedrock 发布帖子。包含 Playground 演示、API 代码示例和区域可用性详情。 aws.amazon.com

Claude Opus 4.7 Benchmarks Explained — Vellum AI 对 MCP-Atlas、OSWorld、CharXiv 等详细基准数据和与 GPT-5.4、Gemini 3.1 Pro 的对比分析。 vellum.ai

Amazon Bedrock Model Card — AWS Docs Adaptive Thinking 迁移指南、提示词缓存设置、服务层级和区域路由详细规格。 docs.aws.amazon.com

Claude Opus 4.7 vs GPT-5.5 — DataCamp 从代码、推理和价格角度对比两个模型。包含 GPT-5.5 仍领先的领域(Terminal-Bench)。 datacamp.com