Anthropic harness design for long-running application development blog post banner

cdn.sanity.io

Anthropic 的 Harness 设计哲学：从多智能体到单智能体，一场减法驱动的进化史

Anthropic Harness设计哲学开发

Harness design for long-running application development — Anthropic Engineering

Effective harnesses for long-running agents — Anthropic Engineering

Building Effective Agents — Anthropic

模型变聪明了，代码也会随之变好吗？Anthropic 在 202 6 年 3 月 24 日发布的官方工程博客中给出了答案：“不，决定结果的是 Harness（执行环境）”。

3秒速览

发现自我评估的局限性 → 从 GAN 结构中获得灵感 → 分离 Generator（生成器）与 Evaluator（评估器） → 采用 3-Agent（三智能体）架构 → 模型能力提升后再次简化 → Harness 随模型共同进化

这是什么?

这篇文章由 Anthropic Labs 团队的 Prithvi Rajasekaran 撰写，其初衷是试图同时解决两个问题：一是让 Claude 能够制作出美观的前端界面，二是在无需人工干预的情况下，让它在数小时内构建出完整的应用程序。

核心洞察非常简单：即使是同一个模型，其输出质量也会因 Harness（执行环境）设计的不同而产生巨大差异。Anthropic 在之前的《Building Effective Agents》博客中就曾提出过“尽可能寻找最简单的解决方案，仅在必要时增加复杂度”的原则，而这篇文章则是该原则在实战中的应用与进化记录。

这里的“Harness”指的是围绕 LLM（大语言模型）构建的整个运行环境。它包含了提示词（Prompt）、工具连接、智能体间的协作结构、反馈循环等模型之外的所有系统。借用 Aakash Gupta 的说法，如果模型是引擎，那么 Harness 就是汽车本身——再强大的引擎，如果没有方向盘和刹车，也毫无用处。

这个话题之所以现在如此热门，是因为整个行业都在达成同样的结论。Manus 在 6 个月内重构了 5 次 Harness，LangChain 为了实现 Deep Research 功能重构了 4 次，而 Vercel 甚至删除了 80% 的智能体工具，结果反而获得了更好的表现。OpenAI 也已经开始将 Harness Engineering（执行环境工程）的概念正式化。

有什么不同?

Anthropic 的博客指出了两个核心痛点：

第一，上下文焦虑（Context Anxiety）。 当智能体的上下文窗口（Context Window）即将填满时，它会失去一致性。更严重的是，当它“感觉到”自己即将达到极限时，往往会倾向于提前结束任务。在 Sonnet 4.5 的实验中，这种现象非常明显，因此他们采取了直接重置上下文的策略。

第二，自我评估失败。 如果让 AI 评估自己的产出，即使质量明显下降，它也会回答“做得很好！”。这种现象在设计等需要主观判断的领域尤为严重。

为了解决这两个问题，Anthropic 从 GAN（生成对抗网络）中汲取灵感，设计了一种将 Generator（生成器）与 Evaluator（评估器）分离的结构。

	传统方式 (单智能体)	Anthropic 的方法 (分离结构)
自我评估	边做边评 → 总是给出高分	生成 AI 与评估 AI 分离
设计质量	重复安全且可预测的布局	根据评估标准迭代改进，追求艺术级效果
长时任务	上下文填满后失去一致性	Planner-Generator-Evaluator 三段式结构
成本 vs 质量	20 分钟, $9 — 核心功能无法运行	6 小时, $200 — 完全可运行的 App

在前端设计实验中，Anthropic 制定了 4 项评估标准：设计质量、原创性、技术完整度、功能性。特别是在“原创性”标准中，他们明确规定：“使用未经修改的库存组件或 AI 常见的套路化模式（如紫色渐变配白色卡片等）将被扣分”。他们通过明确的惩罚机制，打击了那些“一眼 AI”的设计。

他们为 Evaluator 配备了 Playwright MCP，使其能够实际导航页面并截取屏幕进行评估。经过 5 到 15 次的迭代，评分稳步上升。在一次实验中，在构建荷兰美术馆网站的第 10 次迭代中，模型通过 CSS 透视技术创造出了一个 3D 画廊空间，实现了创造性的飞跃。

上手指南：进化的 3 个阶段

第 1 阶段：2-Agent Harness (2025 年 11 月)
由 Initializer（初始化器）+ Coding Agent（编码智能体）组成。将任务拆分为功能单元，并通过重置上下文来实现会话间的交接。基于 Sonnet 4.5 构建。仅凭此结构，其表现就已经远超基础智能体。
第 2 阶段：3-Agent Harness (Opus 4.5)
由 Planner（规划器）+ Generator（生成器）+ Evaluator（评估器）组成。将单行提示词扩展为包含 10 个 Sprint（冲刺）和 16 个功能的复杂流程。每个 Sprint 签署“契约（Contract）”后进行“实现-评估”的循环。曾用 6 小时和 $200 的成本完成了一个 2D 复古游戏制作器——其成果与单智能体（20 分钟, $9）完全不在一个量级。
第 3 阶段：简化版 Harness (Opus 4.6)
移除了 Sprint 结构，将评估缩减为最后的一次性环节。这之所以可行，是因为 Opus 4.6 变得更加聪明了。他们仅用约 4 小时和 $125 的成本就完成了一个浏览器端的 DAW（数字音频工作器）。
核心教训：Harness 的所有组件都是基于“模型目前无法独立完成”这一假设建立的
随着模型能力的提升，必须重新验证这些假设。剔除不再需要的冗余部分，并为新的可能性添加新组件。Anthropic 正在明确地实践这一点——在 Opus 4.6 发布后，他们移除了 Sprint 拆分逻辑，转而增加了关于“AI 功能内置化”的提示词优化。

Anthropic 的核心观点

“Harness 那些有趣的组合空间并不会随着模型的进步而消失，而是会发生转移。AI 工程师真正有趣的工作，就是不断去寻找下一个全新的组合。”

LangChain 的 Lance Martin 将此比作理查德·萨顿（Richard Sutton）的“苦涩的教训（Bitter Lesson）”。这意味着“通用方法最终会战胜精心设计的系统”这一原则，现在不仅适用于模型训练，也适用于应用层。“随着时间的推移，我们应该随着模型的变强，去剥离结构、移除假设，让 Harness 变得更加简单”。

与既有文章的关系

Working Reference 之前的文章《Harness Engineering — 如何驯服 AI 编程智能体的野马》侧重于 Commands、Skills、Hooks 等实战框架。而本文则侧重于 Anthropic 官方博客所展示的设计哲学与演进过程，是另一篇独立的参考资料。

深入了解

🔗

深入了解

Harness design for long-running application development

本文原文 —— Anthropic 官方工程博客全文

Effective harnesses for long-running agents

本文的前篇 —— 2-Agent Harness 的初步实验结果

Building Effective Agents

Anthropic 的智能体设计原则 —— 从工作流到自主智能体

超越提示词与上下文：面向 AI 智能体的 Harness 工程

以韩语整理的 Harness 工程概念与实验结果综述

AI Agent Harness, 3 Principles for Context Engineering

LangChain Lance Martin 访谈 —— Harness 重构与苦涩的教训

[{"q":"这篇文章与之前的 harness-engineering 文章有什么区别？","a":"之前的文章介绍了 Commands、Skills、Hooks 等实战框架，而本文侧重于 Anthropic 官方博客中展示的设计哲学，以及从多智能体向单智能体简化的演进过程。两者的视角完全不同。"},{"q":"如果简化 Harness，结果难道不会变差吗？","a":"在 Anthropic 的实验中，当模型能力足够强大时，简化结构反而能在保持性能的同时降低成本和时间。关键在于根据模型能力剔除不必要的脚手架（Scaffolding），而不是盲目地简化。"},{"q":"调优 Evaluator 智能体有多难？","a":"Anthropic 在初期也遇到了 Evaluator 发现问题却自我宽容的情况。他们必须通过阅读评估日志，找出与自我判断不一致的地方，并反复进行多轮提示词修正。这绝非易事。"},{"q":"这种方法可以应用在编程以外的其他领域吗？","a":"Anthropic 同时将其应用于前端设计（主观领域）和全栈编程（可验证领域）。这种“生成器-评估器”分离模式可以应用于写作、数据分析、研究等所有自我评估能力较弱的 AI 任务。"},{"q":"运行一次 $200 的 Harness 成本现实吗？","a":"在原型开发或 MVP 阶段，这是一种非常有意义的投资。单智能体 $9 的结果虽然核心功能失效，但 $200 的结果是一个真正可运行的 App。从效率角度看，这可能比支付人工成本更划算。"}]