Code w/ Claude 2026 컨퍼런스 발표 현장 — Anthropic Managed Agents 공개

res.infoq.com

一半开发者没看代码就合并了PR — Code w/ Claude 2026如何改变软件开发方式

Claude Code 2026, Managed Agents, Outcomes, AI自主编程, 多智能体编排开发

Code w/ Claude 2026 Liveblog

Anthropic's Code with Claude showed off coding's future—whether you like it or not

Inside Anthropic's 2026 Developer Conference

Anthropic 2026年第一季度年化收入实现了计划目标的80倍增长。SWE-bench Verified评分在一年内从62%跃升至87%，API流量同比增长17倍。但5月伦敦大会上最引人注目的数据是这个——参会开发者中近一半表示，他们提交了完全由Claude编写的PR，一行代码都没看。

Code w/ Claude 2026不是新产品发布活动，而是对已经大规模发生的事情的官方确认。

3秒摘要

大会发布 → Managed Agents上线 → 自动质量把控(Outcomes) → 异步自动化(Routines) → 开发者 = 编排者

这是什么活动？

Code w/ Claude是Anthropic的年度开发者大会。2026年首次扩展到三座城市：旧金山（5月6日）、伦敦（5月19日）和东京（6月10日）。没有新模型发布，这恰恰凸显了Anthropic的核心信息——"模型已经足够强大，剩下的挑战是建立正确的使用结构"。

Anthropic工程师Ravi Trivedi在大会上说得很直接："核心原则是不要妨碍Claude。我们喜欢说：'让它运行吧。'" 不经代码审查就合并PR，已经成为很多团队的默认做法。

80×

Q1收入vs计划目标

87%

SWE-bench Verified（从62%，一年内）

17×

API流量同比增长

2×

Pro·Max请求限额提升

基础设施也大幅扩容。Anthropic宣布与SpaceX达成合作，将Colossus超级集群的全部容量分配给Claude，并取消了Pro/Max用户的高峰期限流。CEO Dario Amodei在大会上预测，"2026年内将出现一人独立运营的十亿美元公司"。

到底变了什么？

本次大会的核心是宣告Claude Code已从单一AI助手升级为多智能体平台。三项核心功能正式发布。

Outcomes — AI自己给输出结果打分
你定义一个评分标准（Rubric），一个独立的评分智能体对任务结果进行评估，并循环重试直到达标。这是从"生成即完成"到"生成、验证、重试"的转变。在不改变模型的情况下，Anthropic内部测试显示Word文档质量提升8.4%，PowerPoint提升10.1%。

多智能体编排 — 主导智能体指挥团队
主导智能体将复杂任务分解，并行分配给专业子智能体。子智能体在共享文件系统上同时工作，主导智能体监控进度。Addy Osmani将这种模式归纳为三个层次：子智能体 → 智能体团队 → 大规模编排。

Dreaming — 智能体从过去的失误中自我学习
在两次会话之间，系统自动回顾过去的工作日志，将反复出现的错误和模式提炼为持久化记忆，并在下次会话开始时预加载。这正是让Harvey任务完成率提升6倍的功能。

	原有Claude Code	Claude Managed Agents
质量验证	人工手动检查	Outcomes自动评分·重试
智能体数量	1个（顺序执行）	主导 + N个专业智能体（并行）
自动化触发	手动提示	Routines: cron·GitHub Webhook·API
跨会话学习	每次从零开始	Dreaming积累模式
服务形态	本地CLI工具	服务器托管（沙箱·检查点）

Claude Code本身也大幅扩展：除CLI外，增加了IDE（可视化变更追踪）、桌面应用（全屏GUI·图像支持），以及供外部开发者构建的Claude Agent SDK。CI自动修复、代码审查、安全审查功能也一并推出。

Routines才是真正的杀手锏

Routines通过cron计划、GitHub Webhook或API端点自动触发Claude Code任务。PR提交后自动进行代码审查，每晚自动运行安全扫描，测试失败后自动生成修复PR。不再是开发者打开Claude，而是Claude自己开始工作。

核心整理：如何开始

更新Claude Code到最新版
运行npm install -g @anthropic-ai/claude-code。Managed Agents完整功能主要面向Enterprise，但Routines和基本编排功能从Pro/Max起部分可用。
定义Outcomes评分标准
从重复性的代码审查或文档任务开始试用Outcomes。给出明确标准：比如"此PR不含安全漏洞，测试覆盖率达80%以上"，Outcomes会循环执行直到达标。
创建AGENTS.md文件
记录项目规范、禁止模式和常用命令。Dreaming会以此文件为基础在会话间积累学习成果。
通过Routines设置自动化触发
将GitHub仓库与Webhook连接，让Claude对PR和提交事件自动响应。建议先从代码审查、安全扫描等只读任务开始，再逐步开放写入权限。
分阶段引入多智能体模式
参考Addy Osmani的三层方法——子智能体（现在即可使用）、智能体团队（实验性·环境变量激活）、大规模编排（Managed Agents规模）。从最简单的子智能体任务分解开始最为稳妥。

🔗

더 깊이 파고 싶다면

Simon Willison — Code w/ Claude 2026 Liveblog

实时记录整场大会的一手资料。

Every.to — Inside Anthropic's 2026 Developer Conference

对Managed Agents如何重新定义AI平台做出最深刻分析的文章，包含Spiral一天内完成部署的案例。

MIT Technology Review — Anthropic's Code with Claude showed off coding's future

批判性分析"不看代码就合并PR"文化的文章，同时探讨了相关风险。

Addy Osmani — The Code Agent Orchestra

多智能体编码三层模式的权威实践指南。

InfoQ — Anthropic's Code with Claude Announces Managed Agents

技术细节与业务指标并重的深度分析。

Claude Code Agent Teams官方文档

多智能体配置和实验性功能激活指南。

常见问题

Claude Code Agent Teams和Managed Agents有什么区别？

它们工作在不同的层面。Claude Code Agent Teams是在本地环境中实验性地并行运行多个Claude Code会话的功能，而Managed Agents是由Anthropic服务器管理的智能体执行环境。Managed Agents内置了沙箱、检查点、凭证范围设置等生产级基础设施，更适合团队和企业场景。

Outcomes最适合哪类工作？

在能够清晰定义成功标准的任务中效果最佳。代码审查（无安全漏洞、测试覆盖率80%以上）或文档生成（特定格式规范、必要章节完整）这类有明确合格/不合格标准的任务最为理想。创意性工作或需要主观判断的任务难以定义评分标准，效果相对有限。

Routines和GitHub Actions等现有CI有什么不同？

GitHub Actions执行预定义的脚本，而Routines让Claude理解上下文后再行动。当PR提交时，不是简单地运行代码检查工具，而是Claude读懂代码变更，分析是否存在安全风险、是否与现有架构一致，并用自然语言反馈。这不是替代现有CI，而是增加一个真正理解代码的审查者。

个人开发者或小团队现在就能使用吗？

Routines和基本Outcomes功能从Pro/Max套餐开始提供部分访问权限。服务器管理型Managed Agents的完整功能主要面向Enterprise套餐。个人开发者可以通过Claude Code的Agent Teams（实验性，环境变量激活）加上结构良好的AGENTS.md文件来获得类似效果。

不读代码就合并PR，现在安全吗？

坦率说，目前还有风险。MIT Technology Review对此现象进行了批判性报道——安全漏洞可能被遗漏，低效模式可能积累。这也正是Anthropic同步发布Outcomes和Security Review的原因。建议先将Outcomes评分标准和安全扫描接入CI流程，再考虑'let it cook'。