Claude Opus 4.7 SWE-bench 벤치마크 비교 — Vellum AI

cdn.sanity.io

AIコーディングエージェント1位が交代 — Claude Opus 4.7がGPT-5.4を超えた理由

Claude Opus 4.7, Amazon Bedrock, SWE-bench, Adaptive Thinking, コーディングエージェント開発

Introducing Anthropic's Claude Opus 4.7 model in Amazon Bedrock

Introducing Claude Opus 4.7

Claude Opus 4.7 — Amazon Bedrock Model Card

AIコーディングエージェントの1位が交代しました。2026年4月、Claude Opus 4.7がSWE-bench Proで64.3%を記録し、GPT-5.4（57.7%）とGemini 3.1 Pro（54.2%）を両方上回りました。そしてこのモデルがAmazon Bedrockに登場しました。単なる「接続チャネルの追加」ではないんです — Bedrockに来たことで生まれた変化が別にあります。

3秒まとめ

SWE-bench Pro 1位 → Adaptive Thinking登場 → temperatureパラメータ廃止 → Bedrockエンタープライズ基盤 → コード3行で開始

64.3%って何?

SWE-benchというベンチマークがあります。GitHubの実際のオープンソースリポジトリから取り出したバグや機能リクエストをAIがどれだけ解決できるかを測定するものです。SWE-bench Proは最難関バージョン — 主要なオープンソースプロジェクトの実際のプロダクション課題を扱います。「コーディングエージェントが現実でどれほど使えるか」を測る最もリアルな基準ですね。

Opus 4.7はここで64.3%を記録しました。前作Opus 4.6の53.4%から10.9ポイントの改善です。GPT-5.4（57.7%）に比べて6.6ポイント上回り、Gemini 3.1 Pro（54.2%）とは10.1ポイントの差があります。コーディングエージェントを作ったり使ったりしているなら、この差は実感としてもかなり大きいですよ。

64.3%

SWE-bench Pro (Opus 4.7)

87.6%

SWE-bench Verified

77.3%

MCP-Atlas ツール使用 (最高値)

コーディングだけじゃないんです。外部ツールの扱いを測るMCP-Atlasでも77.3%でGPT-5.4（75.3%）とGemini（73.9%）を上回りました。マルチエージェントワークフロー構築に直結する指標です。ただし、ウェブリサーチ指標のBrowseCompは79.3%と、4.6の83.7%からやや後退しました。コーディングとツール使用に注力したトレードオフがあったということですね。

ビジョン機能も大幅に強化されました。対応画像解像度が最大2,576ピクセル（長辺基準）に上がりました — 従来モデルの3倍以上です。 UIスクリーンショット分析、複雑な図解の読み取り、高密度な文書処理に直接影響します。CharXivのビジュアル推論スコアも82.1%と、以前（69.1%）から13ポイント上昇しました。

何が変わったの?

Opus 4.7が技術的に最も大きく変わったのはAdaptive Thinkingです。 Opus 4.6まではthinking.type: "enabled"とbudget_tokensを直接設定する必要がありました。「このタスクは最大1000トークンで考えて」「あのタスクは5000トークン使って」と開発者が手動で調整していた方式です。4.7ではこれがなくなりました。

4.7ではthinking.type: "adaptive"一つで完了です。モデルがタスクの複雑さを自ら判断し、推論トークンを自動で配分します。シンプルな質問にはトークンを使わず、複雑なリファクタリング作業には深く掘り下げる構造です。budget_tokensの調整なしに自動最適化されます。

	Opus 4.6	Opus 4.7
推論設定	thinking.type: "enabled" + budget_tokens手動設定	thinking.type: "adaptive" 一つで完了
temperature/top_p	直接調整可能	非対応 — パラメータ削除が必要
SWE-bench Pro	53.4%	64.3% (+10.9pts)
画像解像度	従来水準	最大2,576px長辺基準 (3倍以上)
プロンプトキャッシュTTL	5分	5分・1時間を選択可能
ビジュアル推論 (CharXiv)	69.1%	82.1% (+13pts)

4.6からの移行時の注意

Opus 4.6のコードをそのまま4.7につなぐと400エラーが出ます。thinking.typeを"adaptive"に変更し、temperature・top_p・top_kパラメータを完全に削除する必要があります。 budget_tokensも使用不可 — Adaptive Thinkingが自動で代替します。

価格は変わりません。入力トークン$5/M、出力トークン$25/M — Opus 4.6と同じです。ただし、新しいトークナイザーにより同じコンテンツのトークン数が1.0〜1.35倍に増える可能性があります。実際のコストがわずかに上がる可能性があることに注意してください。

核心まとめ: Bedrockで始める方法

AWSアカウント + Bedrock APIキーの準備
Amazon BedrockコンソールでAPIキーを発行します。AWS_BEARER_TOKEN_BEDROCK環境変数として設定してください。
SDKのインストール
Messages API方式: pip install -U "anthropic[bedrock]"。Converse/Invoke API方式: pip install boto3。どちらか選択してください。
最初のリクエストを送る
モデルIDはanthropic.claude-opus-4-7、デフォルトリージョンはus-east-1です。thinkingパラメータは{"type": "adaptive"}のみ — enabledやbudget_tokensは400エラーになります。
プロンプトキャッシングでコスト最適化
繰り返されるシステムプロンプトや文書にはキャッシュチェックポイント（最小4,096トークン）を設定します。5分・1時間のTTLから選択でき、繰り返し呼び出しのコストを大幅に削減できます。
Geo推論でレイテンシを最小化
日本から使う場合、jp.anthropic.claude-opus-4-7（東京・大阪ルーティング）またはglobal.anthropic.claude-opus-4-7を使えば最適なリージョンに自動接続されます。

Bedrockのエンタープライズ優位点

Bedrockのnext-generation inference engineは、顧客データへのオペレーターアクセスを遮断します。 AWSでVPC、IAM、CloudWatchをすでに使っているなら、追加のセキュリティ設定なしにエンタープライズレベルのデータ分離が得られます。

もっと深掘りしたいなら

Introducing Claude Opus 4.7 — Anthropic Opus 4.7公式発表。Adaptive Thinking設計原則、安全性評価、プラットフォーム別提供状況が確認できます。 anthropic.com

Claude Opus 4.7 in Amazon Bedrock — AWS Blog Bedrock公式出時発表。PlaygroundのUIウォークスルー、APIコードサンプル、リージョン別提供状況が載っています。 aws.amazon.com

Claude Opus 4.7 Benchmarks Explained — Vellum AI MCP-Atlas、OSWorld、CharXivなど詳細なベンチマーク数値と、GPT-5.4・Gemini 3.1 Proとの比較分析がまとまっています。 vellum.ai

Amazon Bedrock Model Card — AWS Docs Adaptive Thinking移行ガイド、プロンプトキャッシング設定、サービスティア、リージョン別ルーティング詳細スペックが載っています。 docs.aws.amazon.com

Claude Opus 4.7 vs GPT-5.5 — DataCamp コーディング・推論・価格を軸に2つのモデルを比較した記事。Terminal-BenchでGPT-5.5が上回るケースも確認できます。 datacamp.com

よくある質問

Opus 4.6のコードをそのまま4.7に接続できますか？

直接接続すると400エラーが出ます。thinking.typeを'adaptive'に変更し、temperature・top_p・top_kパラメータを完全に削除する必要があります。budget_tokensも使用不可 — Adaptive Thinkingが自動で代替します。

SWE-benchのスコアが高ければ実際のプロジェクトでも優秀ですか？

おおむね相関関係はあります。SWE-bench Proは実際のプロダクション課題を使うため、現実の性能に最も近いベンチマークです。ただし、ドメイン特化コードや社内ライブラリが多い環境では体感の差が縮まることもあります。自分のプロジェクトでA/Bテストするのが一番確実ですよ。

Adaptive Thinkingがトークンを自動で使うなら、コスト予測が難しくないですか？

おっしゃる通りです。推論トークンが呼び出しごとに変わるため、コストにばらつきが出ます。対策としては、プロンプトキャッシング（4,096トークン以上の繰り返しコンテンツをキャッシュ）とBedrockのFlexサービスティア（時間に敏感でない作業）を組み合わせて平均コストを下げるのが効果的です。

高解像度画像分析（2,576px）をコーディングエージェントにどう活用できますか？

UIスクリーンショットを送って「この画面のバグを探して」というのが代表的な使い方です。アーキテクチャ図を渡してコード構造レビューを依頼したり、エラースタックトレースのスクリーンショットを分析させることもできます。高解像度対応になったことで、密度の高い文書やコードスクリーンショットも正確に読み取れるようになりました。

日本からBedrockを使う場合、レイテンシの問題はありますか？

リージョンを直接指定するとus-east-1（バージニア）がデフォルトなので遅延があります。jp.anthropic.claude-opus-4-7のGeo IDを使えば東京・大阪リージョンに自動ルーティングされて遅延が大幅に減ります。グローバルIDのglobal.anthropic.claude-opus-4-7も良い選択肢ですよ。