GPT-5がGPT-4よりコーディングが苦手? 冗談ではないんです。IEEE Spectrumの検証結果がそう示しています。

3秒で要約
新モデル登場 クラッシュはしない 静かに間違った結果を生成 「サイレント失敗」が急増 デバッグ難易度が急上昇

これは何?

IEEE Spectrumが2026年1月に発表した分析と、Hacker Newsで700件以上のコメントが付いた議論が注目されています。AIコーディングアシスタントを長く使ってきた開発者たちが、最新モデルは以前のモデルよりコード品質が落ちると報告しているんです。

IEEE Spectrumの核心的な発見は「サイレント失敗(Silent Failure)」です。以前のモデルはコードがまったく動かなければすぐに分かりましたが、新しいモデルはクラッシュせずに実行はされるものの、結果が間違ったコードを生成する傾向があるんです。見つけにくいバグが増えたということです。

テスト結果では、GPT-5がGPT-4より性能が劣るケースが確認されました。CMUの研究チームもGitHubの人気プロジェクト800件以上を分析し、AIツール導入後にコード品質が低下するパターンを確認しています。

Anthropicの自社研究も興味深いです。AIを使ったコーディングが、熟練開発者のスピードをむしろ19%遅くする結果が出たんです。もちろん特定条件での実験ですが、「AIは常に速い」という前提に疑問を投げかけています。

何が変わるのか?

以前のモデル(2024〜2025年初期)最新モデル(2025年後半〜2026年)
失敗の種類クラッシュ/エラー(目に見える)サイレント失敗(実行はされる)
デバッグ難易度エラーメッセージで追跡可能ロジックエラーで追跡が難しい
コード受け入れ率低いが正確なコード高いが微妙に間違ったコード
開発者の体験「動かなければすぐ分かる」「動いてると思ったら結果がおかしい」

なぜこんなことが起きるのでしょうか? Mediumの分析によると、グッドハートの法則(Goodhart's Law)が働いているんです。モデルが「ユーザーが受け入れるコード」を最適化するうちに、受け入れ率は上がっていくのに実際の正確性は落ちてしまいます。コードが動きさえすればユーザーが受け入れるので、モデルは「動くコード」を生成することに最適化されてしまう悪循環です。

DORA(Google DevOps Research)も同様の懸念を示しています。AIツールに過度に依存すると、開発者の深い学習(ディープラーニング — 機械学習ではなく、人間の学習のほうです!)が退化する可能性があると指摘しています。

Anthropicの研究結果

Anthropicの実験では、AIコーディングアシスタントを使った熟練開発者が、使わないグループより作業完了に19%長くかかりました。「AIはあらゆる状況で速い」という前提を見直す必要があります。

ポイント整理:現実的な対応法

  1. AIのコードを100%信頼しないでください
    「動く」と「正しい」は別物です。AIが生成したコードは必ずロジックを確認しましょう。特にエッジケースと境界条件のチェックを忘れずに。
  2. テストを増やしてください
    AIコードのサイレント失敗を防ぐには、テストカバレッジが鍵です。AIにコードと一緒にテストも書かせ、そのテストの品質も確認しましょう。
  3. モデルのバージョンを固定してください
    最新が最良とは限りません。プロジェクトに合ったモデルバージョンが見つかったら、APIバージョンを固定するのも一つの戦略です。
  4. プロンプトを具体的にしてください
    「この関数を作って」ではなく、「入力: X、出力: Y、例外: Zを処理する関数を作って。TypeScript、エラーハンドリング込み」のように具体的にリクエストすると品質が上がります。
  5. コードレビューを強化してください
    AIのコードも人のコードも、レビュープロセスが品質の最終防衛ラインです。AIが作ったPRを自動マージするのはまだ危険です。
1/3

グッドハートの法則

「測定指標が目標になると、良い指標ではなくなる。」受け入れ率の最適化がコード品質低下につながるメカニズムです。

2/3

サイレント失敗の危険性

クラッシュするコードより、静かに間違ったコードのほうが危険です。プロダクション環境でずっと後になってから発見されるからです。

3/3

AI + 人間の検証 = 最善策

AIは初稿生成が得意ですが、最終検証はやはり人間の仕事です。このバランスを保つチームが勝ちます。