GPT-5 写代码不如 GPT-4?这可不是玩笑,而是 IEEE Spectrum 的实测结论。
这是什么?
2026 年 1 月,IEEE Spectrum 发表了一篇分析,同时 Hacker News 上一场收获 700+ 评论的讨论戳中了核心问题。长期使用 AI 编程助手的开发者纷纷反映,最新模型生成的代码质量反而不如早期版本。
IEEE Spectrum 的关键发现是"静默失败(Silent Failure)"。以前的模型如果代码跑不起来,你一眼就能看出来;但新模型更容易写出不崩溃、能运行,但结果是错的代码。这意味着难以定位的 Bug 变多了。
在测试中,GPT-5 在多个场景下表现不如 GPT-4。CMU 研究团队分析了 800 多个热门 GitHub 项目,也确认了引入 AI 工具后代码质量下滑的模式。
Anthropic 自家的研究也挺有意思。实验显示,AI 辅助编程反而让资深开发者的速度慢了 19%。当然这是特定条件下的实验,但确实对"AI 总是更快"的假设打上了问号。
有什么不同?
| 早期模型(2024~2025 上半) | 最新模型(2025 下半~2026) | |
|---|---|---|
| 失败类型 | 崩溃/报错(看得见) | 静默失败(照常运行) |
| 调试难度 | 靠错误信息可追踪 | 逻辑错误,难以追踪 |
| 代码接受率 | 低,但更准确 | 高,但微妙地错 |
| 开发者体验 | "不行会立刻知道" | "以为没事,结果不对" |
为什么会这样?Medium 上的一篇分析指出,背后是古德哈特定律(Goodhart's Law)在起作用。模型为了"用户接受的代码"而优化,结果接受率是上去了,真正的准确率却下来了。代码只要能跑用户就接受,于是模型就专门往"能跑的代码"方向优化,形成恶性循环。
DORA 研究(Google DevOps Research)也提出了类似的担忧:过度依赖 AI 工具,可能让开发者的深度学习能力(deep learning——注意这里说的是人类学习,不是机器学习!)退化。
Anthropic 的研究结果
在 Anthropic 的实验中,使用 AI 编程助手的资深开发者,完成任务的时间比不使用的那组多花了 19%。"AI 在任何场景下都更快"的假设,该重新审视一下了。
上手指南:务实的应对策略
- 不要 100% 信任 AI 写的代码
"能跑"和"对"是两码事。AI 生成的代码必须人工检查逻辑,尤其是边界情况(edge case)和边界条件。 - 多写测试
想抓住 AI 代码的静默失败,测试覆盖率就是关键。让 AI 在写代码的同时把测试也写了,然后再检查测试本身的质量。 - 固定模型版本
最新不一定最好。找到和自己项目匹配的模型版本之后,固定 API 版本也是一种策略。 - 把 Prompt 写具体
别只说"帮我写这个函数",改成"帮我写一个函数,输入 X,输出 Y,处理 Z 异常,TypeScript,含错误处理"——这样提得越具体,产出质量越高。 - 强化代码评审
不管代码是 AI 写的还是人写的,评审流程都是质量的最后一道防线。让 AI 生成的 PR 自动合并,现在还太冒险。




