www-cdn.anthropic.com

9项中7项超越GPT-5.5 — Claude Opus 4.8与Dynamic Workflows实际改变了什么

Claude Opus 4.8, Dynamic Workflows, 子智能体, GPT-5.5对比, ARC-AGI-3开发

Introducing Claude Opus 4.8

Claude Opus 4.8 vs GPT-5.5: Benchmarks, Tests, and Which to Choose

Analyzing GPT-5.5 & Opus 4.7 with ARC-AGI-3

有没有让智能体"迁移整个代码库"的经历？大概到一半就出现上下文溢出、方向迷失、文件冲突——这是智能体编码中反复碰到的那堵墙。

Claude Opus 4.8对这堵墙同时投入了1,000个智能体。2026年5月28日发布的Dynamic Workflows让Claude自动编写JS编排脚本，运行时在后台并行启动数百个子智能体。从启动到合并，处理数十万行代码库——这现在已经是现实了。

30秒速览

单智能体瓶颈 → Dynamic Workflows → 1,000智能体并行 → 全代码库自动化 → 7:2领先GPT-5.5

智能体为什么总是卡住，Workflows怎么解决的

传统的Claude Code子智能体像是"主智能体派差事"的结构。主智能体掌握所有上下文，子智能体只汇报结果。遇到数十万行代码库，主智能体会先触顶。

Dynamic Workflows采用了完全不同的架构。Claude分析任务后自动编写JS编排脚本，运行时在后台执行脚本并动态生成智能体。每个智能体独立处理一个狭窄的范围，部分智能体专门负责验证（反驳）其他智能体的结果。循环持续到答案收敛为止。

	传统子智能体	Dynamic Workflows
上下文管理	主智能体全部持有 → 容易溢出	每个智能体独立处理小范围
作业规模	单个文件到数千行	数十万行代码库
编排方式	人工指定角色	Claude自动生成JS脚本
并发数量	有限	最多16个同时，总计1,000个
自我验证	无	验证智能体自动反驳并收敛

Anthropic实际验证的案例是从启动到通过现有测试套件，全自动处理数十万行代码库。这正是这种架构对代码库迁移等大范围重复性工作特别强大的原因。

套餐要求

Dynamic Workflows仅支持Max、Team和Enterprise套餐。Max/Team套餐默认开启。

与GPT-5.5正面交锋——数据说明一切

Opus 4.8上线以来，与GPT-5.5的对比数据不断累积。9项主要基准测试中，Opus 4.8在7项中领先。

69.2%

SWE-bench Pro（GPT-5.5为58.6%）

1.5%

ARC-AGI-3最高分（GPT-5.5的3倍）

68.1%

GraphWalks BFS 1M（GPT-5.5为45.4%）

差距在长上下文任务中最为明显。GraphWalks BFS 1M测试（100万Token上下文推理）中，Opus 4.8得68.1%，GPT-5.5得45.4%，相差23个百分点。这正是Opus 4.8在Dynamic Workflows等大规模上下文场景中优势最突出的地方。

基准测试	GPT-5.5	Claude Opus 4.8
SWE-bench Pro（编码）	58.6%	69.2%
Humanity's Last Exam（含工具）	52.2%	57.9%
ARC-AGI-3（抽象推理）	0.43%	1.5%
OSWorld-Verified（计算机操作）	78.7%	83.4%
GraphWalks BFS 1M（长上下文）	45.4%	68.1%
Terminal-Bench 2.0（终端操作）	78.2%	74.6%

终端密集型Shell操作中GPT-5.5仍领先3.6个百分点。以编码、推理、计算机控制为核心选Opus 4.8，以终端自动化为主则GPT-5.5也值得考虑。

Opus 4.8在ARC-AGI-3达到1.5%不只是分数提升。ARC Prize分析指出，Opus 4.8开始将环境识别为"对象"而非像素集合——这是Opus 4.7从未迈出的一步。抽象化层次本身发生了变化。

立即开始的方法

确认套餐
访问claude.com/pricing确认是否为Max、Team或Enterprise之一。Personal/Pro套餐不支持Dynamic Workflows。Max 5x为每月$100的起点。
将Claude Code更新到最新版
运行npm install -g @anthropic-ai/claude-code获取最新版本。Max/Team默认启用Dynamic Workflows，无需额外设置。
直接交代代码库规模的任务
不要在提示中拆分任务。直接输入"将整个代码库迁移到Python 3.12"等代码库规模的指令，Claude会自动生成编排脚本。
活用Effort Control
在claude.ai中根据任务难度设置effort级别。复杂的迁移任务建议设为Extra以获得更深入的分析。
监控成本
API按量计费：输入$5/百万Token，输出$25/百万Token。Fast Mode为$10/$50，速度快3倍，且比旧款Fast Mode便宜3倍。大规模迁移建议先在部分文件上测试。

想深入了解

Introducing Claude Opus 4.8 Dynamic Workflows、Effort Control和API变更的官方详情全在这里。 anthropic.com

What Is ARC-AGI-3? How Claude Opus 4.8 Achieved State-of-the-Art Fluid Intelligence 分析Opus 4.8创ARC-AGI-3历史最高分的原因及抽象化层次变化。 mindstudio.ai

Claude Opus 4.8 vs GPT-5.5: Benchmarks, Tests, and Which to Choose 对9项基准测试进行实测的最详细对比分析，帮助按任务类型选择合适的模型。 datacamp.com

Anthropic releases Claude Opus 4.8 with new dynamic workflow tool 发布当天的Anthropic采访和Bridgewater Associates真实使用反馈。 techcrunch.com

Claude Opus 4.8 — The New #1 AI Model Artificial Analysis Intelligence Index 61.4对GPT-5.5 60.2的综合指标排名分析。 artificialanalysis.ai

Anthropic Ships Claude Opus 4.8 Alongside Dynamic Workflows, Capped at 1,000 Subagents 技术架构、1,000个智能体上限及各套餐差异的详细分析。 marktechpost.com

常见问题

Dynamic Workflows与之前的Agent Teams有什么区别？

Agent Teams（Opus 4.6）需要人工指定角色，团队成员直接通信。Dynamic Workflows（Opus 4.8）由Claude自动编写编排脚本并由运行时执行，无需人工干预即可自律运营数百至数千个智能体，规模和自动化程度完全不同。

Personal或Pro套餐能用Dynamic Workflows吗？

Dynamic Workflows目前仅支持Max、Team和Enterprise套餐。不过，Opus 4.8模型本身可通过API在所有套餐中访问。即使没有Dynamic Workflows，也能完整使用Opus 4.8在编码和推理方面的性能提升。

ARC-AGI-3得分1.5%看起来很低，真的有意义吗？

ARC-AGI-3需要在没有任何规则说明的情况下探索135个全新环境，是相对指标而非绝对分数。GPT-5.5为0.43%，Opus 4.7为0.18%，Opus 4.8达到1.5%体现了抽象推理能力的质的飞跃。ARC Prize分析指出Opus 4.8开始将环境识别为对象而非像素集合。

Fast Mode什么时候用比较好？

适合需要快速响应的重复性工作或草稿生成。Fast Mode是标准价格的2倍（输入$10、输出$50/百万Token），但速度快3倍，且比旧款Fast Mode便宜3倍。需要最终审查或复杂推理的任务建议使用标准模式。

作者拉什

追踪商业与AI的交汇点。

这个参考对您有帮助吗？

每周精选参考直达您的邮箱

分享此参考

8年只想不动手的产品,我用AI编程代理3个月做完了

Google资深工程师把搁置8年的开源项目,用AI编程代理3个月内做出来了。从Vibe Coding的失败、推倒重写,到AI真正擅长与不擅长的事——一份用250小时实战记录证明的复盘。

你可能还感兴趣

其他读者也在看的参考

Cursor 估值冲击 500 亿美元 — 6 个月翻倍,AI 编程工具市场全面爆发

pymnts.com

Cursor爆发式增长至500亿美元估值，预示AI编程工具市场大变局

Cursor 估值冲击 500 亿美元 — 6 个月翻倍,AI 编程工具市场全面爆发

ARR 突破 20 亿美元,3 个月营收翻倍。并行 Agent、MCP Apps、JetBrains 集成——Cursor 揭示 AI 编程市场的真实规模与未来走向。

查看详情

cdn.infograb.io

Claude Skills

只需教AI一次 — Claude Skills 33页指南完整整理

Anthropic公开的33页官方指南核心总结。用一个文件夹向Claude传授业务诀窍的Skills功能——节省50%token，消息15次→2次，还可以全团队共享。

查看详情

下一篇 →8年只想不动手的产品,我用AI编程代理3个月做完了