www-cdn.anthropic.com

9個中7個でGPT-5.5を超えた — Claude Opus 4.8とDynamic Workflowsが実際に変えたこと

Claude Opus 4.8, Dynamic Workflows, サブエージェント, GPT-5.5比較, ARC-AGI-3開発

Introducing Claude Opus 4.8

Claude Opus 4.8 vs GPT-5.5: Benchmarks, Tests, and Which to Choose

Analyzing GPT-5.5 & Opus 4.7 with ARC-AGI-3

「このリポジトリ全体をマイグレーションして」とエージェントに頼んでみたことありますか？だいたい50%くらいでコンテキスト超過、方向を見失う、ファイル競合 — エージェントコーディングで繰り返される同じ壁です。

Claude Opus 4.8はその壁にエージェント1,000個を一斉投入します。 2026年5月28日リリースのDynamic Workflowsは、ClaudeがJSオーケストレーションスクリプトを自ら書き、ランタイムが数百のサブエージェントをバックグラウンドで並列実行する仕組みです。数十万行のコードベースをキックオフからマージまで自動処理することが、今や現実になりました。

3秒まとめ

単一エージェントの限界 → Dynamic Workflows → 1,000エージェント並列 → コードベース全体自動化 → GPT-5.5に7:2で優位

エージェントが詰まっていた理由、Workflowsが解決した方法

従来のClaude Codeサブエージェントは「メインがおつかいを頼む」構造でした。メインエージェントがコンテキストをすべて保持し、サブエージェントは結果だけを報告する。数十万行のコードベースが来ると、メインが先に限界を迎えます。

Dynamic Workflowsはまったく異なるアーキテクチャです。ClaudeがタスクをJSオーケストレーションスクリプトとして自動作成し、ランタイムがそのスクリプトをバックグラウンドで実行しながらエージェントを動的に生成します。各エージェントは狭い範囲を独立して処理し、一部のエージェントは他のエージェントの結果を検証（反論）する役割を担います。答えが収束するまでループが続きます。

	従来のサブエージェント	Dynamic Workflows
コンテキスト管理	メインが全部保持 → 容易に超過	エージェントごとに狭い範囲を独立処理
作業規模	単一ファイル〜数千行	数十万行のコードベース
オーケストレーション	人間が役割を指定	ClaudeがJSスクリプトを自動作成
同時エージェント数	制限あり	最大16個同時、合計1,000個
自己検証	なし	検証エージェントが自動反論・収束

Anthropicが実証したのは数十万行のコードベースをキックオフから既存テストスイート合格まで自動処理することです。コードベースのマイグレーションのような広範囲で反復的な作業でこの構造が強力な理由ですよ。

プランに注意

Dynamic WorkflowsはMax・Team・Enterpriseプランでのみ利用可能です。Max/Teamプランではデフォルトで有効になっています。

GPT-5.5と対決してみると — 数字が語るもの

Opus 4.8のリリース以来、GPT-5.5との比較データが積み上がってきました。9つの主要ベンチマーク中、Opus 4.8が7つで優位に立っています。

69.2%

SWE-bench Pro（GPT-5.5は58.6%）

1.5%

ARC-AGI-3最高スコア（GPT-5.5の3倍）

68.1%

GraphWalks BFS 1M（GPT-5.5は45.4%）

特に長文コンテキストで差が開きます。GraphWalks BFS 1Mテスト（100万トークンのコンテキスト推論）ではOpus 4.8が68.1%、GPT-5.5が45.4%で23ポイント差がつきました。 Dynamic Workflowsのような大規模コンテキストが必要な作業でOpus 4.8の優位性が最も際立つポイントですよ。

ベンチマーク	GPT-5.5	Claude Opus 4.8
SWE-bench Pro（コーディング）	58.6%	69.2%
Humanity's Last Exam（ツールあり）	52.2%	57.9%
ARC-AGI-3（抽象推論）	0.43%	1.5%
OSWorld-Verified（PC操作）	78.7%	83.4%
GraphWalks BFS 1M（長文コンテキスト）	45.4%	68.1%
Terminal-Bench 2.0（ターミナル作業）	78.2%	74.6%

ターミナル集約型のシェル作業ではGPT-5.5がまだ3.6ポイント優位です。コーディング・推論・PC操作が中心ならOpus 4.8、ターミナル自動化がメインならGPT-5.5も選択肢になります。

ARC-AGI-3で1.5%を達成したことは単なるスコア上昇ではないんです。ARC Prizeの分析によれば、Opus 4.8は環境をピクセルの集合としてではなく「オブジェクト」として認識し始めたとのこと。抽象化レベル自体が変わったんですよ。

今すぐ始めるには

プランを確認する
claude.com/pricingでMax・Team・Enterpriseのいずれかか確認してください。Personal/Proプランは非対応です。Max 5xが月$100のスタートラインです。
Claude Codeを最新版に更新する
npm install -g @anthropic-ai/claude-codeで最新版を取得。Max/Teamではデフォルト有効なので追加設定不要です。
コードベース規模のタスクをそのまま渡す
プロンプトでタスクを細切れにしないでください。「このリポ全体をPython 3.12にマイグレーションして」のようにコードベース規模の指示をそのまま入力すれば、ClaudeがJSスクリプトを自動作成します。
Effort Controlを活用する
claude.aiでタスクの難易度に合わせてeffortレベルを設定できます。複雑なマイグレーションはExtraに設定するとより深く掘り下げてくれます。
コストをモニタリングする
API料金は入力$5/百万トークン、出力$25/百万トークン。Fast Modeは$10/$50ですが3倍速く、旧モデルのFast Modeより3倍安くなりました。大規模マイグレーションは最初に一部ファイルでテストするのをおすすめします。

もっと深く知りたい方へ

Introducing Claude Opus 4.8 Dynamic Workflows・Effort Control・API変更の公式詳細情報がすべて揃っています。 anthropic.com

What Is ARC-AGI-3? How Claude Opus 4.8 Achieved State-of-the-Art Fluid Intelligence Opus 4.8が歴代最高のARC-AGI-3スコアを出した理由と抽象化レベルの変化を分析した原文です。 mindstudio.ai

Claude Opus 4.8 vs GPT-5.5: Benchmarks, Tests, and Which to Choose 9つのベンチマークを実際にテストした最も詳細な比較分析です。作業タイプ別にどのモデルが向くかを判断するのに役立ちます。 datacamp.com

Anthropic releases Claude Opus 4.8 with new dynamic workflow tool リリース当日のAnthropicインタビューとBridgewater Associatesの実際の使用感が掲載されています。 techcrunch.com

Claude Opus 4.8 — The New #1 AI Model Artificial Analysis Intelligence Index 61.4対GPT-5.5 60.2、複合指標での1位分析です。 artificialanalysis.ai

Anthropic Ships Claude Opus 4.8 Alongside Dynamic Workflows, Capped at 1,000 Subagents 技術アーキテクチャと1,000エージェント上限、プラン別の違いを詳しく解説した記事です。 marktechpost.com

よくある質問

Dynamic Workflowsと以前のAgent Teamsの違いは何ですか？

Agent Teams（Opus 4.6）は人間が役割を指定し、チームメンバーが直接コミュニケーションを取る構造でした。Dynamic Workflows（Opus 4.8）はClaudeがオーケストレーションスクリプトを自動作成してランタイムが実行する方式なので、人間の介入なしに数百〜数千のエージェントを自律的に運用します。規模と自動化レベルがまったく異なります。

PersonalやProプランではDynamic Workflowsはまったく使えないのですか？

Dynamic Workflowsは現在Max・Team・Enterpriseプランのみ対応しています。ただし、Opus 4.8モデル自体はAPIを通じてすべてのプランで利用できます。Dynamic Workflowsなしでも、Opus 4.8のコーディング・推論性能の向上はそのまま使えます。

ARC-AGI-3のスコア1.5%が低く見えるのですが、実際に意義があるのですか？

ARC-AGI-3は135の完全に未知の環境をルールなしで探索する必要があります。絶対スコアではなく相対指標です。GPT-5.5が0.43%、Opus 4.7が0.18%だったところ、Opus 4.8が1.5%を達成したのは抽象化能力の質的な飛躍を示しています。ARC Prizeの分析では、Opus 4.8が環境をピクセルではなくオブジェクトとして認識し始めたと述べています。

Fast Modeはいつ使うのがいいですか？

素早い応答が必要な繰り返し作業や下書き生成に使いましょう。Fast Modeは標準の2倍のコスト（入力$10、出力$50/百万トークン）ですが3倍速く、旧モデルのFast Modeより3倍安くなりました。最終確認や複雑な推論が必要な作業には通常モードをおすすめします。