模型变聪明了,代码也会随之变好吗?Anthropic 在 202 6 年 3 月 24 日发布的官方工程博客中给出了答案:“不,决定结果的是 Harness(执行环境)”。
这是什么?
这篇文章由 Anthropic Labs 团队的 Prithvi Rajasekaran 撰写,其初衷是试图同时解决两个问题:一是让 Claude 能够制作出美观的前端界面,二是在无需人工干预的情况下,让它在数小时内构建出完整的应用程序。
核心洞察非常简单:即使是同一个模型,其输出质量也会因 Harness(执行环境)设计的不同而产生巨大差异。Anthropic 在之前的《Building Effective Agents》博客中就曾提出过“尽可能寻找最简单的解决方案,仅在必要时增加复杂度”的原则,而这篇文章则是该原则在实战中的应用与进化记录。
这里的“Harness”指的是围绕 LLM(大语言模型)构建的整个运行环境。它包含了提示词(Prompt)、工具连接、智能体间的协作结构、反馈循环等模型之外的所有系统。借用 Aakash Gupta 的说法,如果模型是引擎,那么 Harness 就是汽车本身——再强大的引擎,如果没有方向盘和刹车,也毫无用处。
这个话题之所以现在如此热门,是因为整个行业都在达成同样的结论。Manus 在 6 个月内重构了 5 次 Harness,LangChain 为了实现 Deep Research 功能重构了 4 次,而 Vercel 甚至删除了 80% 的智能体工具,结果反而获得了更好的表现。OpenAI 也已经开始将 Harness Engineering(执行环境工程)的概念正式化。
有什么不同?
Anthropic 的博客指出了两个核心痛点:
第一,上下文焦虑(Context Anxiety)。 当智能体的上下文窗口(Context Window)即将填满时,它会失去一致性。更严重的是,当它“感觉到”自己即将达到极限时,往往会倾向于提前结束任务。在 Sonnet 4.5 的实验中,这种现象非常明显,因此他们采取了直接重置上下文的策略。
第二,自我评估失败。 如果让 AI 评估自己的产出,即使质量明显下降,它也会回答“做得很好!”。这种现象在设计等需要主观判断的领域尤为严重。
为了解决这两个问题,Anthropic 从 GAN(生成对抗网络)中汲取灵感,设计了一种将 Generator(生成器)与 Evaluator(评估器)分离的结构。
| 传统方式 (单智能体) | Anthropic 的方法 (分离结构) | |
|---|---|---|
| 自我评估 | 边做边评 → 总是给出高分 | 生成 AI 与 评估 AI 分离 |
| 设计质量 | 重复安全且可预测的布局 | 根据评估标准迭代改进,追求艺术级效果 |
| 长时任务 | 上下文填满后失去一致性 | Planner-Generator-Evaluator 三段式结构 |
| 成本 vs 质量 | 20 分钟, $9 — 核心功能无法运行 | 6 小时, $200 — 完全可运行的 App |
在前端设计实验中,Anthropic 制定了 4 项评估标准:设计质量、原创性、技术完整度、功能性。特别是在“原创性”标准中,他们明确规定:“使用未经修改的库存组件或 AI 常见的套路化模式(如紫色渐变配白色卡片等)将被扣分”。他们通过明确的惩罚机制,打击了那些“一眼 AI”的设计。
他们为 Evaluator 配备了 Playwright MCP,使其能够实际导航页面并截取屏幕进行评估。经过 5 到 15 次的迭代,评分稳步上升。在一次实验中,在构建荷兰美术馆网站的第 10 次迭代中,模型通过 CSS 透视技术创造出了一个 3D 画廊空间,实现了创造性的飞跃。
上手指南:进化的 3 个阶段
- 第 1 阶段:2-Agent Harness (2025 年 11 月)
由 Initializer(初始化器)+ Coding Agent(编码智能体)组成。将任务拆分为功能单元,并通过重置上下文来实现会话间的交接。基于 Sonnet 4.5 构建。仅凭此结构,其表现就已经远超基础智能体。 - 第 2 阶段:3-Agent Harness (Opus 4.5)
由 Planner(规划器)+ Generator(生成器)+ Evaluator(评估器)组成。将单行提示词扩展为包含 10 个 Sprint(冲刺)和 16 个功能的复杂流程。每个 Sprint 签署“契约(Contract)”后进行“实现-评估”的循环。曾用 6 小时和 $200 的成本完成了一个 2D 复古游戏制作器——其成果与单智能体(20 分钟, $9)完全不在一个量级。 - 第 3 阶段:简化版 Harness (Opus 4.6)
移除了 Sprint 结构,将评估缩减为最后的一次性环节。这之所以可行,是因为 Opus 4.6 变得更加聪明了。他们仅用约 4 小时和 $125 的成本就完成了一个浏览器端的 DAW(数字音频工作器)。 - 核心教训:Harness 的所有组件都是基于“模型目前无法独立完成”这一假设建立的
随着模型能力的提升,必须重新验证这些假设。剔除不再需要的冗余部分,并为新的可能性添加新组件。Anthropic 正在明确地实践这一点——在 Opus 4.6 发布后,他们移除了 Sprint 拆分逻辑,转而增加了关于“AI 功能内置化”的提示词优化。
Anthropic 的核心观点
“Harness 那些有趣的组合空间并不会随着模型的进步而消失,而是会发生转移。AI 工程师真正有趣的工作,就是不断去寻找下一个全新的组合。”
LangChain 的 Lance Martin 将此比作理查德·萨顿(Richard Sutton)的“苦涩的教训(Bitter Lesson)”。这意味着“通用方法最终会战胜精心设计的系统”这一原则,现在不仅适用于模型训练,也适用于应用层。“随着时间的推移,我们应该随着模型的变强,去剥离结构、移除假设,让 Harness 变得更加简单”。
与既有文章的关系
Working Reference 之前的文章《Harness Engineering — 如何驯服 AI 编程智能体的野马》侧重于 Commands、Skills、Hooks 等实战框架。而本文则侧重于 Anthropic 官方博客所展示的设计哲学与演进过程,是另一篇独立的参考资料。




