AI 코딩 에이전트 8개월 실전 경험 — IDE에서 Vi로 돌아간 개발자

serenitiesai.com

AI 智能体实战 8 个月——90% 的代码由 AI 编写,我彻底抛弃了 IDE

ai-agent-8-months-lessonsAI 에이전트

Eight More Months of Agents — David Crawshaw

AI Coding Agents After 8 Months: From 25% to 90% AI-Written Code

Eight More Months of Agents — Hacker News Discussion (241 comments)

一年前,这位开发者还只让 AI 写 25% 的代码,8 个月后,他已经把 90% 交给了 AI。连 IDE 都扔了,回到了 50 年历史的 Vi。

3秒速览

AI 代码占比 25%→90% → 弃用 IDE,回归 Vi → 只用前沿模型 → 用 VM 替代沙箱 → 软件的形态正在改变

这是什么?

David Crawshaw 是 Tailscale 的联合创始人之一。他现在正在打造一个叫 exe.dev 的智能体平台,一年多来持续发布关于 AI 编程智能体(coding agent)的实战记录。第一篇文章在 HN 拿到 919 分,第二篇 615 分,这次第三篇又收获了 223 分,被开发者社区公认为最坦诚的实战报告。

关键在这里。智能体的工具框架(harness)一年几乎没变,但模型却突飞猛进。Crawshaw 自己做的智能体 Sketch 在 6 个月前就能做到的事,现在一些热门智能体还做不到。归根结底,核心不是工具,而是模型。

他甚至说,公开的基准测试全都被「刷分」了,不用看。你应该关注的是那些质变时刻。虽然没有出现 GPT-2 第一次开口说话那种戏剧性的瞬间,但持续的小改进累积起来,如今已经能把 90% 的代码交给 AI 处理。

25% → 90%

AI 编写代码的比例(一年间变化)

50:50 → 95:5

读代码 : 写代码的时间比例

Vi(50 岁)

2026 年当下的主力编辑器

有什么不同?

最让人震惊的变化是 IDE 的退场。你看,2021 年 Copilot 刚出来时,IDE 还是必需品,自动补全和行内编辑让打字效率提升了 50%。但 4 年后的智能体时代,IDE 已经不再必要。智能体只需要一个终端和代码库的访问权限就够了。

	Copilot 时代(2021~2024)	智能体时代(2025~)
主力工具	VS Code + Copilot	终端 + Claude Code / Codex
开发者角色	写代码 + AI 辅助	审代码 + 指挥智能体
AI 贡献度	打字效率 +50%	直接写 90% 的代码
时间分配	读 50% / 写 50%	读 95% / 写 5%
编辑器	必须用 IDE	Vi / Neovim 就够了

另一个重要变化是程序的数量。那些以前只会在 Apple Notes 里写下「TODO」然后遗忘的想法,现在真的被做成了。Crawshaw 本人说,编程从没这么有趣过,因为他一直想做的那些程序,现在真的存在了。

HN 评论区也出现了强烈的反对声音。有一位开发者抱怨同事用 AI 生成的都是没经过测试的「slop」(垃圾代码),还说「感觉像被 gaslighting(精神操控)」。还有很多人认为,编码速度根本不是真正的瓶颈——PR 评审、CI/CD 流程、IAM 权限这些组织流程才是。有一条评论总结得很到位:AI 只是把 5 天的流程缩短到了 4.9 天。

上手指南

先用前沿模型(frontier model)
这是 Crawshaw 最强硬的建议。用便宜的模型会让你学到「错误的教训」。智能体的能力边界一直在变,你必须了解最新前沿模型的真实能力,才能判断哪些任务可以放心交给它。
关掉内置沙箱,改用 VM
Claude Code 那种「要不要执行 cat foo.txt?」的确认提示正在扼杀你的生产力。每个会话启动一个新的 VM,让智能体无拘无束地干活,效果好得多。
练习读代码,而不是写代码
时间分配已经变成了 95:5。快速且准确地审阅智能体生成的代码,正在成为新的核心能力。
记住「对程序员最好的软件,就是对所有用户最好的软件」
这是 Crawshaw 的核心哲学。当每个客户都有了自己的智能体时,API 和开发者体验就等于用户体验。如果你在做产品,先把 API 做好,再考虑 UI。

重点:Crawshaw 的 Stripe Sigma 案例

Stripe 推出了一套 SQL 查询系统(Sigma)和内置的 LLM 助手,但 API 端点还在非公开的 alpha 测试中。于是 Crawshaw 只用三句话指令,就让智能体搭出了 Stripe API → 本地 SQLite → 自建查询系统的完整链路。他说自己搭的比 Stripe 的产品更能解决他的问题。

注意:HN 社区的现实提醒

智能体的使用体验个体差异极大。像 Crawshaw 这样的高阶用户能体验到 10 倍的生产力,但大多数开发者还远远达不到这个水平。现实是:如果不围绕智能体重新设计整个工作流,只换工具很难见到效果。

🔗