AIコーディングエージェントの1位が交代しました。2026年4月、Claude Opus 4.7がSWE-bench Proで64.3%を記録し、GPT-5.4(57.7%)とGemini 3.1 Pro(54.2%)を両方上回りました。 そしてこのモデルがAmazon Bedrockに登場しました。単なる「接続チャネルの追加」ではないんです — Bedrockに来たことで生まれた変化が別にあります。

3秒まとめ
SWE-bench Pro 1位 Adaptive Thinking登場 temperatureパラメータ廃止 Bedrockエンタープライズ基盤 コード3行で開始

64.3%って何?

SWE-benchというベンチマークがあります。GitHubの実際のオープンソースリポジトリから取り出したバグや機能リクエストをAIがどれだけ解決できるかを測定するものです。SWE-bench Proは最難関バージョン — 主要なオープンソースプロジェクトの実際のプロダクション課題を扱います。「コーディングエージェントが現実でどれほど使えるか」を測る最もリアルな基準ですね。

Opus 4.7はここで64.3%を記録しました。 前作Opus 4.6の53.4%から10.9ポイントの改善です。GPT-5.4(57.7%)に比べて6.6ポイント上回り、Gemini 3.1 Pro(54.2%)とは10.1ポイントの差があります。 コーディングエージェントを作ったり使ったりしているなら、この差は実感としてもかなり大きいですよ。

64.3%
SWE-bench Pro (Opus 4.7)
87.6%
SWE-bench Verified
77.3%
MCP-Atlas ツール使用 (最高値)

コーディングだけじゃないんです。外部ツールの扱いを測るMCP-Atlasでも77.3%でGPT-5.4(75.3%)とGemini(73.9%)を上回りました。 マルチエージェントワークフロー構築に直結する指標です。ただし、ウェブリサーチ指標のBrowseCompは79.3%と、4.6の83.7%からやや後退しました。 コーディングとツール使用に注力したトレードオフがあったということですね。

ビジョン機能も大幅に強化されました。対応画像解像度が最大2,576ピクセル(長辺基準)に上がりました — 従来モデルの3倍以上です。 UIスクリーンショット分析、複雑な図解の読み取り、高密度な文書処理に直接影響します。CharXivのビジュアル推論スコアも82.1%と、以前(69.1%)から13ポイント上昇しました。

何が変わったの?

Opus 4.7が技術的に最も大きく変わったのはAdaptive Thinkingです。 Opus 4.6まではthinking.type: "enabled"budget_tokensを直接設定する必要がありました。「このタスクは最大1000トークンで考えて」「あのタスクは5000トークン使って」と開発者が手動で調整していた方式です。4.7ではこれがなくなりました。

4.7ではthinking.type: "adaptive"一つで完了です。モデルがタスクの複雑さを自ら判断し、推論トークンを自動で配分します。 シンプルな質問にはトークンを使わず、複雑なリファクタリング作業には深く掘り下げる構造です。budget_tokensの調整なしに自動最適化されます。

Opus 4.6 Opus 4.7
推論設定 thinking.type: "enabled" + budget_tokens手動設定 thinking.type: "adaptive" 一つで完了
temperature/top_p 直接調整可能 非対応 — パラメータ削除が必要
SWE-bench Pro 53.4% 64.3% (+10.9pts)
画像解像度 従来水準 最大2,576px長辺基準 (3倍以上)
プロンプトキャッシュTTL 5分 5分・1時間を選択可能
ビジュアル推論 (CharXiv) 69.1% 82.1% (+13pts)

4.6からの移行時の注意

Opus 4.6のコードをそのまま4.7につなぐと400エラーが出ます。thinking.type"adaptive"に変更し、temperaturetop_ptop_kパラメータを完全に削除する必要があります。 budget_tokensも使用不可 — Adaptive Thinkingが自動で代替します。

価格は変わりません。入力トークン$5/M、出力トークン$25/M — Opus 4.6と同じです。 ただし、新しいトークナイザーにより同じコンテンツのトークン数が1.0〜1.35倍に増える可能性があります。 実際のコストがわずかに上がる可能性があることに注意してください。

核心まとめ: Bedrockで始める方法

  1. AWSアカウント + Bedrock APIキーの準備
    Amazon BedrockコンソールでAPIキーを発行します。AWS_BEARER_TOKEN_BEDROCK環境変数として設定してください。
  2. SDKのインストール
    Messages API方式: pip install -U "anthropic[bedrock]"。Converse/Invoke API方式: pip install boto3。どちらか選択してください。
  3. 最初のリクエストを送る
    モデルIDはanthropic.claude-opus-4-7、デフォルトリージョンはus-east-1です。thinkingパラメータは{"type": "adaptive"}のみ — enabledやbudget_tokensは400エラーになります。
  4. プロンプトキャッシングでコスト最適化
    繰り返されるシステムプロンプトや文書にはキャッシュチェックポイント(最小4,096トークン)を設定します。5分・1時間のTTLから選択でき、繰り返し呼び出しのコストを大幅に削減できます。
  5. Geo推論でレイテンシを最小化
    日本から使う場合、jp.anthropic.claude-opus-4-7(東京・大阪ルーティング)またはglobal.anthropic.claude-opus-4-7を使えば最適なリージョンに自動接続されます。

Bedrockのエンタープライズ優位点

Bedrockのnext-generation inference engineは、顧客データへのオペレーターアクセスを遮断します。 AWSでVPC、IAM、CloudWatchをすでに使っているなら、追加のセキュリティ設定なしにエンタープライズレベルのデータ分離が得られます。

もっと深掘りしたいなら

Introducing Claude Opus 4.7 — Anthropic Opus 4.7公式発表。Adaptive Thinking設計原則、安全性評価、プラットフォーム別提供状況が確認できます。 anthropic.com

Claude Opus 4.7 in Amazon Bedrock — AWS Blog Bedrock公式出時発表。PlaygroundのUIウォークスルー、APIコードサンプル、リージョン別提供状況が載っています。 aws.amazon.com

Claude Opus 4.7 Benchmarks Explained — Vellum AI MCP-Atlas、OSWorld、CharXivなど詳細なベンチマーク数値と、GPT-5.4・Gemini 3.1 Proとの比較分析がまとまっています。 vellum.ai

Amazon Bedrock Model Card — AWS Docs Adaptive Thinking移行ガイド、プロンプトキャッシング設定、サービスティア、リージョン別ルーティング詳細スペックが載っています。 docs.aws.amazon.com

Claude Opus 4.7 vs GPT-5.5 — DataCamp コーディング・推論・価格を軸に2つのモデルを比較した記事。Terminal-BenchでGPT-5.5が上回るケースも確認できます。 datacamp.com