一年前,这位开发者还只让 AI 写 25% 的代码,8 个月后,他已经把 90% 交给了 AI。连 IDE 都扔了,回到了 50 年历史的 Vi。
这是什么?
David Crawshaw 是 Tailscale 的联合创始人之一。他现在正在打造一个叫 exe.dev 的智能体平台,一年多来持续发布关于 AI 编程智能体(coding agent)的实战记录。第一篇文章在 HN 拿到 919 分,第二篇 615 分,这次第三篇又收获了 223 分,被开发者社区公认为最坦诚的实战报告。
关键在这里。智能体的工具框架(harness)一年几乎没变,但模型却突飞猛进。Crawshaw 自己做的智能体 Sketch 在 6 个月前就能做到的事,现在一些热门智能体还做不到。归根结底,核心不是工具,而是模型。
他甚至说,公开的基准测试全都被「刷分」了,不用看。你应该关注的是那些质变时刻。虽然没有出现 GPT-2 第一次开口说话那种戏剧性的瞬间,但持续的小改进累积起来,如今已经能把 90% 的代码交给 AI 处理。
有什么不同?
最让人震惊的变化是 IDE 的退场。你看,2021 年 Copilot 刚出来时,IDE 还是必需品,自动补全和行内编辑让打字效率提升了 50%。但 4 年后的智能体时代,IDE 已经不再必要。智能体只需要一个终端和代码库的访问权限就够了。
| Copilot 时代(2021~2024) | 智能体时代(2025~) | |
|---|---|---|
| 主力工具 | VS Code + Copilot | 终端 + Claude Code / Codex |
| 开发者角色 | 写代码 + AI 辅助 | 审代码 + 指挥智能体 |
| AI 贡献度 | 打字效率 +50% | 直接写 90% 的代码 |
| 时间分配 | 读 50% / 写 50% | 读 95% / 写 5% |
| 编辑器 | 必须用 IDE | Vi / Neovim 就够了 |
另一个重要变化是程序的数量。那些以前只会在 Apple Notes 里写下「TODO」然后遗忘的想法,现在真的被做成了。Crawshaw 本人说,编程从没这么有趣过,因为他一直想做的那些程序,现在真的存在了。
HN 评论区也出现了强烈的反对声音。有一位开发者抱怨同事用 AI 生成的都是没经过测试的「slop」(垃圾代码),还说「感觉像被 gaslighting(精神操控)」。 还有很多人认为,编码速度根本不是真正的瓶颈——PR 评审、CI/CD 流程、IAM 权限这些组织流程才是。有一条评论总结得很到位:AI 只是把 5 天的流程缩短到了 4.9 天。
上手指南
- 先用前沿模型(frontier model)
这是 Crawshaw 最强硬的建议。用便宜的模型会让你学到「错误的教训」。智能体的能力边界一直在变,你必须了解最新前沿模型的真实能力,才能判断哪些任务可以放心交给它。 - 关掉内置沙箱,改用 VM
Claude Code 那种「要不要执行 cat foo.txt?」的确认提示正在扼杀你的生产力。每个会话启动一个新的 VM,让智能体无拘无束地干活,效果好得多。 - 练习读代码,而不是写代码
时间分配已经变成了 95:5。快速且准确地审阅智能体生成的代码,正在成为新的核心能力。 - 记住「对程序员最好的软件,就是对所有用户最好的软件」
这是 Crawshaw 的核心哲学。当每个客户都有了自己的智能体时,API 和开发者体验就等于用户体验。如果你在做产品,先把 API 做好,再考虑 UI。
重点:Crawshaw 的 Stripe Sigma 案例
Stripe 推出了一套 SQL 查询系统(Sigma)和内置的 LLM 助手,但 API 端点还在非公开的 alpha 测试中。于是 Crawshaw 只用三句话指令,就让智能体搭出了 Stripe API → 本地 SQLite → 自建查询系统的完整链路。他说自己搭的比 Stripe 的产品更能解决他的问题。
注意:HN 社区的现实提醒
智能体的使用体验个体差异极大。像 Crawshaw 这样的高阶用户能体验到 10 倍的生产力,但大多数开发者还远远达不到这个水平。 现实是:如果不围绕智能体重新设计整个工作流,只换工具很难见到效果。



