cdn.sanity.io

Claude Opus 4.7 — SWE-benchトップ奪還、でもトークンを食い尽くすモンスター

Claude Opus 4.7、SWE-bench、トークンコスト、エージェント型AI、Anthropic開発

Introducing Claude Opus 4.7 — Anthropic 공식 발표

Anthropic releases Claude Opus 4.7, narrowly retaking lead for most powerful GA LLM

Claude Opus 4.7 leads on SWE-bench and agentic reasoning

SWE-benchのトップを取り戻しました。コーディングベンチマーク全般でGPT-5.4とGemini 3.1 Proを抑え、再び頂点に立ったClaude Opus 4.7 — ただし、使い終わるとトークンの財布がからっぽになります。

ひと目でわかる

何: AnthropicのフラッグシップモデルClaude Opus 4.7をリリース（2026.4.16）

ポイント: SWE-bench Pro 64.3%でコーディング1位を奪還、ビジョン解像度3倍向上、エージェンティックワークフロー14%改善

代償: 新しいトークナイザーにより同じ入力が最大1.35倍のトークンに変換、高度な推論時は出力トークンも急増

これは何?

Anthropicが4月16日に公開したOpus 4.7は、前作Opus 4.6の直接的なアップグレードです。「最も難しいコーディング作業を監督なしで任せられる」というのが、Anthropicの核心メッセージなんです。

実際、このモデルは自己検証（self-verification）能力が際立っています。あるテストでは、RustでTTS（テキスト・トゥ・スピーチ）エンジンをゼロから作成した後、自分が生成した音声を別の音声認識システムに入力し、Pythonリファレンスと一致するかどうかを自律的に確認しました。シニアエンジニアが数カ月かけてやる作業を、自力でやり遂げた形です。

重要な変化: Opus 4.7は指示を「文字通り」に実行します。以前のモデルがゆるく解釈していたプロンプトを正確に実行するため、既存のプロンプトをそのまま使うと予想外の結果になることがあります。Anthropicはプロンプトの見直しを公式に推奨しています。

価格はOpus 4.6と同じく入力$5/出力$25（100万トークンあたり）で、Claude API、Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundryですぐに利用できます。

何が変わるのか?

まずベンチマークの数字を整理します。Opus 4.7は「すべてで1位」ではありませんが、開発者が実際に使う領域で確かな優位性を示しています。

ベンチマーク	Opus 4.6	Opus 4.7	GPT-5.4	Gemini 3.1 Pro
SWE-bench Verified	80.8%	87.6%	-	80.6%
SWE-bench Pro	53.4%	64.3%	57.7%	54.2%
MCP-Atlas（ツール使用）	75.8%	77.3%	68.1%	73.9%
OSWorld（コンピュータ使用）	72.7%	78.0%	75.0%	-
GPQA Diamond（推論）	91.3%	94.2%	94.4%	94.3%
BrowseComp（検索）	83.7%	79.3%	89.3%	85.9%
GDPVal-AA（知識労働Elo）	-	1,753	1,674	1,314

コーディングとツール使用では確実に1位、純粋な推論は「3強同率」、ウェブ検索（BrowseComp）はむしろ4.4ポイント下落しています。万能モデルではなく、コーディング・エージェント特化型だからです。

注意: BrowseCompではOpus 4.7（79.3%）が4.6（83.7%）を下回っています。ウェブリサーチが中心のエージェントを運用する場合は、GPT-5.4 Pro（89.3%）やGemini 3.1 Pro（85.9%）の方が良い選択かもしれません。

ビジョンが3倍鮮明になった

画像処理解像度が最大2,576px（長辺基準、約375万ピクセル）に向上し、従来モデルの3倍以上になりました。自律型セキュリティテスト企業XBOWは、視覚精度が54.5%から98.5%に跳ね上がったことを確認しています。スクリーンショットを読み取るコンピュータ使用エージェント、複雑な技術ダイアグラムの解析、密度の高いUI操作 — 以前は「ぼやけていて無理だった」ことが、今では対応できるようになります。

エージェンティックワークフローの本当の改善

数字一つで要約しにくい変化があります。

+14%

Notion：マルチステップワークフローの成功率改善、ツールエラーが1/3に減少

Rakuten：SWE-Benchで4.6比3倍のプロダクションタスクを解決

70%

Cursor：CursorBenchスコア（4.6は58%）、自律コーディング性能が大幅向上

Cognition（Devin）のCEOは「4.7は数時間にわたって一貫して作業し、難しい問題でも諦めない」と評しています。 Factory Droidsは「途中で止まっていたモデルが、今では最後まで完走する」と言い、Replitの代表は「技術的な議論で反論までしてくれる同僚みたいだ」と表現しました。

トークン消費という影

ただし、問題があります。Opus 4.7は確実に「より多く考え、より多く消費します」。

トークン増加の原因は2つ:
1. 新しいトークナイザー — 同じ入力が1.0〜1.35倍のトークンに変換されます。
2. 深い推論 — 特にエージェンティックな設定の後半ターンで出力トークンが大きく増加します。

Decryptの実際のテストでは、単一セッションでトークンクォータ全体が使い切られる事態が発生しました。モデルがコード全体を完成させた後、「バグ修正と改善」というラベルでコード全体を最初から書き直し、さらにもう一度書き直すパターンが観察されています。 Opus 4.6では一度も起きなかった挙動です。

Anthropicもこの問題を認識しており、新しいeffortパラメータとタスクバジェットを導入しました。

Effortレベル	特徴	推奨用途
low/medium	高速な応答、最小限の推論	シンプルなクエリ、データ変換
high	バランスの取れた推論	一般的なコーディング、分析
xhigh（新規）	深い推論、highとmaxの中間	複雑なエージェンティックコーディング（Claude Codeのデフォルト）
max	最大推論、最大トークン	最も難しい問題のみ

タスクバジェットはパブリックベータとして提供されており、エージェントのトークン使用量に上限を設定し、予期しないコスト爆発を防いでくれます。

始め方のポイント

Opus 4.6から4.7に移行する際に知っておくべきことをまとめました。

まずプロンプトを見直す
4.7は指示を文字通りに実行します。「いい感じにやっておいて」スタイルのプロンプトは予想外の結果を招くことがあります。代表的なトラフィックでテストしてから切り替えましょう。
Effortレベルを設定する
コーディング・エージェンティックな作業はhighまたはxhighから始めましょう。maxは最も難しい問題のみに使用。Claude Codeのデフォルトはxhighです。
トークンコストを計測する
新しいトークナイザーにより、同じ入力が最大35%多くのトークンを消費します。実際のトラフィックでコストの変化を先に確認しておきましょう。
タスクバジェットを活用する
長時間のエージェント実行ではAPIのタスクバジェット（ベータ）でトークン上限を設定しておきましょう。予期しない課金を防げます。
ウェブ検索エージェントは注意が必要
BrowseCompスコアが下落しているため、リサーチ中心のワークフローにはGPT-5.4 Proの併用も検討してみてください。

同時にリリースされた新機能

Opus 4.7と合わせて発表されたアップデートもあります。

/ultrareview — Claude Codeで変更内容をシニアレビュアーレベルで点検する専用レビューセッション。Pro/Maxユーザーに3回無料提供。

Auto Mode拡大 — MaxユーザーもClaudeが自律的に判断を下すAuto Modeを利用可能に。長い作業を中断なく進められます。

Cyber Verification Program — セキュリティ専門家（ペネトレーションテスト、脆弱性研究など）がOpus 4.7のサイバーセキュリティ機能にアクセスできる認証プログラム。

さらに深掘りしたい人へ

Anthropic公式発表 Opus 4.7のベンチマーク、安全性プロファイル、移行ガイドを含む全文。 anthropic.com

Vellumベンチマーク分析 SWE-bench、MCP-Atlas、GPQA Diamondなど主要ベンチマーク別の詳細比較と、移行シナリオ別の推奨事項。 vellum.ai

Decrypt実使用レビュー ゲームビルドのプロンプトで実際にテストした結果 — 過去最高品質ながら単一セッションでトークンクォータを全量消費。 decrypt.co

VentureBeat深掘り分析 エンタープライズ視点の移行戦略とAnthropicの市場ポジショニング分析。 venturebeat.com

TNW技術まとめ 価格、利用可能性、主要ベンチマークをコンパクトにまとめたテックメディアレビュー。 thenextweb.com

Claude Opus 4.7移行ガイド Opus 4.6から4.7への切り替え時の注意事項とeffortレベルのチューニング方法。 platform.claude.com

よくある質問

Opus 4.7はGPT-5.4より絶対に優れているのですか?

そうではありません。コーディング（SWE-bench Pro 64.3% vs 57.7%）とツール使用（MCP-Atlas 77.3% vs 68.1%）ではOpus 4.7が上回りますが、ウェブ検索（BrowseComp 89.3% vs 79.3%）と推論（HLE 58.7% vs 54.7%）ではGPT-5.4が優位です。用途によって使い分けるのが正解です。

トークンコストはどれくらい増えますか?

価格自体は同じ（$5/$25 per Mトークン）ですが、新しいトークナイザーにより同じテキストが1.0〜1.35倍のトークンに変換されます。さらに高いeffortレベルでの推論トークン増加も加わると、実質的なコストはかなり上がる可能性があります。

4.6からそのまま4.7に切り替えても大丈夫ですか?

そのまま切り替えると、既存のプロンプトが想定通りに動かない可能性があります。Opus 4.7は指示を文字通りに実行するため、ゆるく書かれたプロンプトは必ず見直してから切り替えましょう。Anthropicも段階的な移行を推奨しています。