GPT-5がGPT-4よりコーディングが苦手? 冗談ではないんです。IEEE Spectrumの検証結果がそう示しています。
これは何?
IEEE Spectrumが2026年1月に発表した分析と、Hacker Newsで700件以上のコメントが付いた議論が注目されています。AIコーディングアシスタントを長く使ってきた開発者たちが、最新モデルは以前のモデルよりコード品質が落ちると報告しているんです。
IEEE Spectrumの核心的な発見は「サイレント失敗(Silent Failure)」です。以前のモデルはコードがまったく動かなければすぐに分かりましたが、新しいモデルはクラッシュせずに実行はされるものの、結果が間違ったコードを生成する傾向があるんです。見つけにくいバグが増えたということです。
テスト結果では、GPT-5がGPT-4より性能が劣るケースが確認されました。CMUの研究チームもGitHubの人気プロジェクト800件以上を分析し、AIツール導入後にコード品質が低下するパターンを確認しています。
Anthropicの自社研究も興味深いです。AIを使ったコーディングが、熟練開発者のスピードをむしろ19%遅くする結果が出たんです。もちろん特定条件での実験ですが、「AIは常に速い」という前提に疑問を投げかけています。
何が変わるのか?
| 以前のモデル(2024〜2025年初期) | 最新モデル(2025年後半〜2026年) | |
|---|---|---|
| 失敗の種類 | クラッシュ/エラー(目に見える) | サイレント失敗(実行はされる) |
| デバッグ難易度 | エラーメッセージで追跡可能 | ロジックエラーで追跡が難しい |
| コード受け入れ率 | 低いが正確なコード | 高いが微妙に間違ったコード |
| 開発者の体験 | 「動かなければすぐ分かる」 | 「動いてると思ったら結果がおかしい」 |
なぜこんなことが起きるのでしょうか? Mediumの分析によると、グッドハートの法則(Goodhart's Law)が働いているんです。モデルが「ユーザーが受け入れるコード」を最適化するうちに、受け入れ率は上がっていくのに実際の正確性は落ちてしまいます。コードが動きさえすればユーザーが受け入れるので、モデルは「動くコード」を生成することに最適化されてしまう悪循環です。
DORA(Google DevOps Research)も同様の懸念を示しています。AIツールに過度に依存すると、開発者の深い学習(ディープラーニング — 機械学習ではなく、人間の学習のほうです!)が退化する可能性があると指摘しています。
Anthropicの研究結果
Anthropicの実験では、AIコーディングアシスタントを使った熟練開発者が、使わないグループより作業完了に19%長くかかりました。「AIはあらゆる状況で速い」という前提を見直す必要があります。
ポイント整理:現実的な対応法
- AIのコードを100%信頼しないでください
「動く」と「正しい」は別物です。AIが生成したコードは必ずロジックを確認しましょう。特にエッジケースと境界条件のチェックを忘れずに。 - テストを増やしてください
AIコードのサイレント失敗を防ぐには、テストカバレッジが鍵です。AIにコードと一緒にテストも書かせ、そのテストの品質も確認しましょう。 - モデルのバージョンを固定してください
最新が最良とは限りません。プロジェクトに合ったモデルバージョンが見つかったら、APIバージョンを固定するのも一つの戦略です。 - プロンプトを具体的にしてください
「この関数を作って」ではなく、「入力: X、出力: Y、例外: Zを処理する関数を作って。TypeScript、エラーハンドリング込み」のように具体的にリクエストすると品質が上がります。 - コードレビューを強化してください
AIのコードも人のコードも、レビュープロセスが品質の最終防衛ラインです。AIが作ったPRを自動マージするのはまだ危険です。




