Loading...

AI Coding Assistants Are Getting Worse 기사 헤더

spectrum.ieee.org

AI 编程助手真的在变差吗——为什么新模型反而更容易写出 Bug

AI 코딩 어시스턴트 품질 저하, 사일런트 실패, Goodhart 법칙, 코드 리뷰AI 코딩 도구 품질 분석

AI Coding Assistants Are Getting Worse

AI coding assistants are getting worse? | Hacker News

AI Is still making code worse: A new CMU study confirms

GPT-5 写代码不如 GPT-4?这可不是玩笑,而是 IEEE Spectrum 的实测结论。

3秒速览

新模型发布 → 不崩溃 → 却悄悄生成错误结果 → "静默失败"激增 → 调试难度暴涨

这是什么?

2026 年 1 月,IEEE Spectrum 发表了一篇分析,同时 Hacker News 上一场收获 700+ 评论的讨论戳中了核心问题。长期使用 AI 编程助手的开发者纷纷反映,最新模型生成的代码质量反而不如早期版本。

IEEE Spectrum 的关键发现是"静默失败(Silent Failure)"。以前的模型如果代码跑不起来,你一眼就能看出来;但新模型更容易写出不崩溃、能运行,但结果是错的代码。这意味着难以定位的 Bug 变多了。

在测试中,GPT-5 在多个场景下表现不如 GPT-4。CMU 研究团队分析了 800 多个热门 GitHub 项目,也确认了引入 AI 工具后代码质量下滑的模式。

Anthropic 自家的研究也挺有意思。实验显示,AI 辅助编程反而让资深开发者的速度慢了 19%。当然这是特定条件下的实验,但确实对"AI 总是更快"的假设打上了问号。

有什么不同?

	早期模型(2024~2025 上半)	最新模型(2025 下半~2026)
失败类型	崩溃/报错(看得见)	静默失败(照常运行)
调试难度	靠错误信息可追踪	逻辑错误,难以追踪
代码接受率	低,但更准确	高,但微妙地错
开发者体验	"不行会立刻知道"	"以为没事,结果不对"

为什么会这样?Medium 上的一篇分析指出,背后是古德哈特定律(Goodhart's Law)在起作用。模型为了"用户接受的代码"而优化,结果接受率是上去了,真正的准确率却下来了。代码只要能跑用户就接受,于是模型就专门往"能跑的代码"方向优化,形成恶性循环。

DORA 研究(Google DevOps Research)也提出了类似的担忧:过度依赖 AI 工具,可能让开发者的深度学习能力(deep learning——注意这里说的是人类学习,不是机器学习!)退化。

Anthropic 的研究结果

在 Anthropic 的实验中,使用 AI 编程助手的资深开发者,完成任务的时间比不使用的那组多花了 19%。"AI 在任何场景下都更快"的假设,该重新审视一下了。

上手指南:务实的应对策略

不要 100% 信任 AI 写的代码
"能跑"和"对"是两码事。AI 生成的代码必须人工检查逻辑,尤其是边界情况(edge case)和边界条件。
多写测试
想抓住 AI 代码的静默失败,测试覆盖率就是关键。让 AI 在写代码的同时把测试也写了,然后再检查测试本身的质量。
固定模型版本
最新不一定最好。找到和自己项目匹配的模型版本之后,固定 API 版本也是一种策略。
把 Prompt 写具体
别只说"帮我写这个函数",改成"帮我写一个函数,输入 X,输出 Y,处理 Z 异常,TypeScript,含错误处理"——这样提得越具体,产出质量越高。
强化代码评审
不管代码是 AI 写的还是人写的,评审流程都是质量的最后一道防线。让 AI 生成的 PR 自动合并,现在还太冒险。

1/3

古德哈特定律

"一旦某个指标成为目标,它就不再是一个好指标。"优化接受率反而拉低代码质量,背后就是这个机制。

2/3

静默失败的危险

比起崩溃的代码,悄悄出错的代码其实更危险——因为可能要到生产环境才被发现。

3/3

AI + 人工验证 = 最优解

AI 擅长生成初稿,但最终验证依然得靠人。能把握好这个平衡的团队,才是赢家。

🔗

深入了解

IEEE Spectrum:AI 编程正在退化

第一篇系统分析静默失败现象的报道

Hacker News 讨论(700+ 评论)

一线开发者的亲身经验与反对观点

CMU 研究:AI 让代码变得更糟

对 800+ 个 GitHub 项目的分析结果

反方观点:不是变差,是用错了

从古德哈特定律和用户习惯切入的分析

DORA:平衡 AI 带来的张力

Google DevOps Research 对 AI 工具效果的分析

FAQ

是不是某个 AI 编程工具特别差?

IEEE Spectrum 的分析中,GPT-5 在若干场景下不如 GPT-4;HN 讨论中 Copilot 和 Cursor 都被点名。不过也有人反馈 Claude Code 的质量相对稳定。与其说是工具之间的差异,不如说模型代际之间的差距才是更大的问题。

初级开发者是不是就不该用 AI?

完全不是。关键是要有批判性阅读 AI 代码的能力。如果自己都看不懂代码就直接复制粘贴,既学不到东西,也抓不住静默失败。把 AI 当作同事而不是老师,就对了。

Vibe Coding 在这个问题上更危险吗?

相对来说,是的。不亲自检查代码的 Vibe Coding 对静默失败特别脆弱。所以用 Vibe Coding 做出来的应用,在上线前最好让专业开发者做一遍代码评审。

这个问题有望被解决吗?

长期来看会解决。等到模型训练方式从优化接受率转向优化准确率,再加上更严谨的基准测试出现,情况会改善。但短期内,开发者自己建立验证习惯,才是最靠谱的防线。

作者 러쉬

发掘和分析有吸引力的商业成功案例。

这个参考对您有帮助吗？

每周精选参考直达您的邮箱

分享此参考

8年只想不动手的产品,我用AI编程代理3个月做完了

8年只想不动手的产品,我用AI编程代理3个月做完了

Google资深工程师把搁置8年的开源项目,用AI编程代理3个月内做出来了。从Vibe Coding的失败、推倒重写,到AI真正擅长与不擅长的事——一份用250小时实战记录证明的复盘。

你可能还感兴趣

其他读者也在看的参考

Cursor 估值冲击 500 亿美元 — 6 个月翻倍,AI 编程工具市场全面爆发

AI 코딩 도구ARR $2B 돌파, 3개월 만에 매출 2배. 병렬 에이전트, MCP Apps, JetBrains 통합까지. Cursor가 보여주는 AI 코딩

Cursor 估值冲击 500 亿美元 — 6 个月翻倍,AI 编程工具市场全面爆发

ARR 突破 20 亿美元,3 个月营收翻倍。并行 Agent、MCP Apps、JetBrains 集成——Cursor 揭示 AI 编程市场的真实规模与未来走向。

只需教AI一次 — Claude Skills 33页指南完整整理

cdn.infograb.io

AI 생산성Claude Skills

只需教AI一次 — Claude Skills 33页指南完整整理

Anthropic公开的33页官方指南核心总结。用一个文件夹向Claude传授业务诀窍的Skills功能——节省50%token，消息15次→2次，还可以全团队共享。

下一篇 →8年只想不动手的产品,我用AI编程代理3个月做完了