SWE-benchのトップを取り戻しました。コーディングベンチマーク全般でGPT-5.4とGemini 3.1 Proを抑え、再び頂点に立ったClaude Opus 4.7 — ただし、使い終わるとトークンの財布がからっぽになります。
これは何?
Anthropicが4月16日に公開したOpus 4.7は、前作Opus 4.6の直接的なアップグレードです。「最も難しいコーディング作業を監督なしで任せられる」というのが、Anthropicの核心メッセージなんです。
実際、このモデルは自己検証(self-verification)能力が際立っています。あるテストでは、RustでTTS(テキスト・トゥ・スピーチ)エンジンをゼロから作成した後、自分が生成した音声を別の音声認識システムに入力し、Pythonリファレンスと一致するかどうかを自律的に確認しました。 シニアエンジニアが数カ月かけてやる作業を、自力でやり遂げた形です。
重要な変化: Opus 4.7は指示を「文字通り」に実行します。以前のモデルがゆるく解釈していたプロンプトを正確に実行するため、既存のプロンプトをそのまま使うと予想外の結果になることがあります。Anthropicはプロンプトの見直しを公式に推奨しています。
価格はOpus 4.6と同じく入力$5/出力$25(100万トークンあたり)で、Claude API、Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundryですぐに利用できます。
何が変わるのか?
まずベンチマークの数字を整理します。Opus 4.7は「すべてで1位」ではありませんが、開発者が実際に使う領域で確かな優位性を示しています。
| ベンチマーク | Opus 4.6 | Opus 4.7 | GPT-5.4 | Gemini 3.1 Pro |
|---|---|---|---|---|
| SWE-bench Verified | 80.8% | 87.6% | - | 80.6% |
| SWE-bench Pro | 53.4% | 64.3% | 57.7% | 54.2% |
| MCP-Atlas(ツール使用) | 75.8% | 77.3% | 68.1% | 73.9% |
| OSWorld(コンピュータ使用) | 72.7% | 78.0% | 75.0% | - |
| GPQA Diamond(推論) | 91.3% | 94.2% | 94.4% | 94.3% |
| BrowseComp(検索) | 83.7% | 79.3% | 89.3% | 85.9% |
| GDPVal-AA(知識労働Elo) | - | 1,753 | 1,674 | 1,314 |
コーディングとツール使用では確実に1位、純粋な推論は「3強同率」、ウェブ検索(BrowseComp)はむしろ4.4ポイント下落しています。万能モデルではなく、コーディング・エージェント特化型だからです。
注意: BrowseCompではOpus 4.7(79.3%)が4.6(83.7%)を下回っています。ウェブリサーチが中心のエージェントを運用する場合は、GPT-5.4 Pro(89.3%)やGemini 3.1 Pro(85.9%)の方が良い選択かもしれません。
ビジョンが3倍鮮明になった
画像処理解像度が最大2,576px(長辺基準、約375万ピクセル)に向上し、従来モデルの3倍以上になりました。 自律型セキュリティテスト企業XBOWは、視覚精度が54.5%から98.5%に跳ね上がったことを確認しています。 スクリーンショットを読み取るコンピュータ使用エージェント、複雑な技術ダイアグラムの解析、密度の高いUI操作 — 以前は「ぼやけていて無理だった」ことが、今では対応できるようになります。
エージェンティックワークフローの本当の改善
数字一つで要約しにくい変化があります。
Cognition(Devin)のCEOは「4.7は数時間にわたって一貫して作業し、難しい問題でも諦めない」と評しています。 Factory Droidsは「途中で止まっていたモデルが、今では最後まで完走する」と言い、Replitの代表は「技術的な議論で反論までしてくれる同僚みたいだ」と表現しました。
トークン消費という影
ただし、問題があります。Opus 4.7は確実に「より多く考え、より多く消費します」。
トークン増加の原因は2つ:
1. 新しいトークナイザー — 同じ入力が1.0〜1.35倍のトークンに変換されます。
2. 深い推論 — 特にエージェンティックな設定の後半ターンで出力トークンが大きく増加します。
Decryptの実際のテストでは、単一セッションでトークンクォータ全体が使い切られる事態が発生しました。モデルがコード全体を完成させた後、「バグ修正と改善」というラベルでコード全体を最初から書き直し、さらにもう一度書き直すパターンが観察されています。 Opus 4.6では一度も起きなかった挙動です。
Anthropicもこの問題を認識しており、新しいeffortパラメータとタスクバジェットを導入しました。
| Effortレベル | 特徴 | 推奨用途 |
|---|---|---|
| low/medium | 高速な応答、最小限の推論 | シンプルなクエリ、データ変換 |
| high | バランスの取れた推論 | 一般的なコーディング、分析 |
| xhigh(新規) | 深い推論、highとmaxの中間 | 複雑なエージェンティックコーディング(Claude Codeのデフォルト) |
| max | 最大推論、最大トークン | 最も難しい問題のみ |
タスクバジェットはパブリックベータとして提供されており、エージェントのトークン使用量に上限を設定し、予期しないコスト爆発を防いでくれます。
始め方のポイント
Opus 4.6から4.7に移行する際に知っておくべきことをまとめました。
- まずプロンプトを見直す
4.7は指示を文字通りに実行します。「いい感じにやっておいて」スタイルのプロンプトは予想外の結果を招くことがあります。代表的なトラフィックでテストしてから切り替えましょう。 - Effortレベルを設定する
コーディング・エージェンティックな作業はhighまたはxhighから始めましょう。maxは最も難しい問題のみに使用。Claude Codeのデフォルトはxhighです。 - トークンコストを計測する
新しいトークナイザーにより、同じ入力が最大35%多くのトークンを消費します。実際のトラフィックでコストの変化を先に確認しておきましょう。 - タスクバジェットを活用する
長時間のエージェント実行ではAPIのタスクバジェット(ベータ)でトークン上限を設定しておきましょう。予期しない課金を防げます。 - ウェブ検索エージェントは注意が必要
BrowseCompスコアが下落しているため、リサーチ中心のワークフローにはGPT-5.4 Proの併用も検討してみてください。
同時にリリースされた新機能
Opus 4.7と合わせて発表されたアップデートもあります。
さらに深掘りしたい人へ
Anthropic公式発表 Opus 4.7のベンチマーク、安全性プロファイル、移行ガイドを含む全文。 anthropic.com
Vellumベンチマーク分析 SWE-bench、MCP-Atlas、GPQA Diamondなど主要ベンチマーク別の詳細比較と、移行シナリオ別の推奨事項。 vellum.ai
Decrypt実使用レビュー ゲームビルドのプロンプトで実際にテストした結果 — 過去最高品質ながら単一セッションでトークンクォータを全量消費。 decrypt.co
VentureBeat深掘り分析 エンタープライズ視点の移行戦略とAnthropicの市場ポジショニング分析。 venturebeat.com
TNW技術まとめ 価格、利用可能性、主要ベンチマークをコンパクトにまとめたテックメディアレビュー。 thenextweb.com
Claude Opus 4.7移行ガイド Opus 4.6から4.7への切り替え時の注意事項とeffortレベルのチューニング方法。 platform.claude.com




