AI IDE 대시보드에서 PCW 98%로 표시된 화면 — AI가 짠 코드 비율이 부풀려지는 현상을 보여주는 이미지

williamoconnell.me

AIが上司に嘘をついている — Windsurf 98%の正体とPRで本当のシグナルを掴む方法

AIコード検証, AI指標の嘘, PCW, AI生成コード測定, PRレビューチェックリスト開発

Your AI Might be Lying to Your Boss

Percentage of Code Written — Windsurf

Top engineers at Anthropic, OpenAI say AI now writes 100% of their code

ある開発者がIDEのダッシュボードを開いたら「PCW 98%」と表示されていました。AIが書いたコードの割合が98%という意味です。怪しいですよね。そこで彼は実験を始めました。結果は衝撃的でした。49文字を手で打っても、システムは46文字しか人間の貢献として認めず、自分のコードをコピー&ペーストすると0点で全部AIの得点になったんです。

3秒サマリー

「AIが98%書いた」 → 測定方式をデバッグ → 5つのバイアスを発見 → 実験で指標の嘘を立証 → PRチェックリストで本当のシグナル

何が起きてるんですか?

2026年4月、William O''Connellが自分のブログに公開した話です。会社で使っているWindsurf(VS Codeベースの AI IDE)の分析ダッシュボードを見たら、「% new code written by Windsurf」が98%と表示されていました。本人の体感では10〜20%程度。「私が手で書いたコードよりAIが書いたものが49倍多い? それなら今頃トークン予算が枯渇して、神レベルの生産性で昇進したか、49/50の開発者が不要として解雇されているはずでは?」疑問に思って実験を始めたんです。

Windsurf自身も「お客様のPCW値は通常85%以上、しばしば95%以上です」と公式ブログに書いています。「これはハルシネーションではなく、計算方式に基づいた正確な数字です」と強調しながら。しかし測定方式を分解すると、これを「正確」と主張するのは無理があります。

O''Connellはmitmproxyでネットワークトラフィックを傍受しようとしましたが、protobufエンコーディングに阻まれました。幸いダッシュボードのAPIレスポンスにuser_bytes、codeium_bytes、total_bytes、percent_code_writtenフィールドが露出していました。これで彼が発見したバイアスは5つです。

WindsurfのPCWが人間の貢献を削り取る5つのメカニズム

1. 自動補完される閉じカッコや引用符は人間の入力にカウントされない。49文字打っても46文字しかuser_bytesが増えない。
2. ペーストはuser_bytesに加算されない。自分のコードを別ファイルに移動しても0点。
3. リファクタリングは丸ごとAIの得点。自分の関数をAIに移させると100% AI貢献。
4. セッション境界がない。再起動するとどの行がどこ由来か忘れる。
5. 「コミット時に測定」と書いてあるがgit連動は機能していない。実際はタイピングごとにカウンタが動く。

O''Connellは決定的な実験をしました。human_file.jsに1行直接タイピング(49文字)、AIに同じ長さの1行をai_file.jsに書かせる。次に自分が書いた関数をAIファイルにコピペし、自分の関数をAIに別ファイルへ移すよう指示。結果: AIが人間の2倍以上のコード量を書いたと報告された(67.9%)。実は両ファイルはほぼ同じ長さだったのに。

Cursorの「AI Share of Committed Code」はもっと正直なgitベースの測定でした。でもO''Connellが100行のJSファイルを貼り付けて、AIに引用符だけ書き換えるよう指示したら、100行全体が「AI作成」としてカウントされました。AIが実際に触ったのは49行だけだったのに。結局、両ツールともバイアスがあって、その方向は常に「AI比重を過大評価」です。

これがもっと深刻な問題な理由

AnthropicのClaude Code責任者Boris Chernyが2026年1月に「私のコードの100%はClaudeが書いている。会社全体もほぼ100%」とXに投稿して話題になりました。似たようにMicrosoft CEOのSatya Nadellaは30%、Googleは75%を自慢しました。役員が発表しやすい数字です。AI企業にとっては自社ツールの価値を証明する数字でもあります。

ところがMETRの研究は真逆の結果を示します。16人のシニアOSS開発者を対象にしたRCT(無作為化比較試験)で、AIツールを使ったグループは19%遅かった。もっと怖いのは「AIのおかげで速くなった」と本人たちが信じていたこと。本人感覚では20%速くなったと答えたのに、実際は19%遅くなっていたんです。

GitClearが2億1,100万行のコード変更を5年分分析した結果も衝撃的です。リファクタリング比率は2021年の25%から2024年の10%以下に低下し、コピペコードは8.3%から12.3%に4倍増加(歴史上初めて「コピペ」が「移動」を上回った)。 AIはコード量は増やしたものの、コードベースの健全性は測定可能な形で悪化しているという話です。

	ベンダーの指標	現場で本当に見るべきシグナル
測定単位	バイト/行数(量)	PRサイクルタイム、事後修正率(質)
バイアス方向	AI比重を過大評価	中立 — マージ後にイシュー/ロールバックで検証
測定タイミング	タイピング即時またはコミット時	マージ後7〜30日間追跡
意思決定への効用	「AIが全部やるから人を減らそう」	「どこに検証負債が溜まっているか」
法的リスク	「コードの大半が著作権保護対象外」	人間の貢献比率を保守的に算定

これは単なる指標の精度問題ではありません。「うちの会社のコードの90%がAI」という一文が作られると、経営陣は「じゃあ人がなぜこんなに必要?」と聞き始めます。さらに米国ではAI生成著作物が著作権保護の対象外という判決が出ているため、「コードの大部分がAIで書かれた」という指標は法務チームの悪夢です。

韓国の現場でも同じ悩みが始まっています。ある社内ガイドラインの記事では「AIコード受容率をKPIにすると、品質検証なしにアクセプトだけする行動が出る」とGoodhartの法則を引用していました。別のCTOは「AIが1分で書いたコードを人間が10分かけてレビューする皮肉」を指摘しました。指標が嘘をついている間、本当のコストはコードレビュー時間に移っているんです。

核心まとめ: PRで本当のシグナルを掴む検証チェックリスト

ダッシュボードのPCW/AI Share数値は「方向性」だけで見る
Windsurf自身のガイドも「directional proxy」と明記しています。絶対値は無意味。同じチーム、同じツール、同じ四半期内で推移変化だけを活用してください。他のツール・他のチームと絶対に比較しないこと。
PRレビュー時に「diffレイアウト」から見る
AIが書いたPRは普通触る必要のない場所まで一緒に修正されていることが多いです(O''Connell実験の「100行全体がAI」のようなパターン)。diffが異常に広範囲なら「この変更の本当の意図は何か」をまず聞くのがシグナルです。
テストがきれいすぎたら疑う
METRの研究によるとAIは「ハードコーディングされた値で通過する自己充足的テスト」をよく作ります。アサーションが入力値そのままを比較していたり、エッジケースなしでhappy pathだけだったりすると赤信号です。失敗ケースを1つ追加してテストが崩れるか確認してください。
重複コードと死んだコードを自動検出する
GitClear研究が示した4倍増加したコピペパターンがPRに入ってきたら阻止すべきです。 jscpd、SonarQube duplications、または単純にgrepで同じ関数シグネチャが2箇所にあるか確認するだけでも効果が大きいです。AIは既存コードを再利用せず、似たものを新しく書く傾向が強いです。
「AIに自分のコードをディフェンドさせる」
Adam Ferrariが提案した検証パターンです。同じまたは別のモデルにPR diffを渡して「この変更がなぜ必要だったか、どんなリスクがあるか」を説明させてください。自分のコードも説明できないなら、人間レビュアーの時間を節約したのではなく、ただ負債を後回しにしただけです。

マネージャー用のワンライナーチェック

「うちのチームのAIコード比率はX%です」という報告が上がってきたら、2つの質問だけ投げてください。① この数字はどう計算されたか(Windsurf PCWかCursor Shareか自社定義か)。② 同じ四半期内でPR事後修正率・ロールバック率はどう変化したか。2つの質問に答えが出ないなら、その数字は意思決定の根拠に使わないでください。

もっと深く知りたいなら

Your AI Might be Lying to Your Boss William O''Connellの原本実験記 — WindsurfとCursorの測定方式を直接デバッグしたフルレポート williamoconnell.me

Percentage of Code Written Windsurf公式PCW説明 — 85〜95%が正常というベンダー側の立場と6つのcaveat windsurf.com

METR: Early-2025 AI on Experienced Developers シニア16人のRCT — AI使用時に19%遅くなり、本人は20%速くなったと信じていた metr.org

GitClear AI Copilot Code Quality 2025 2億1,100万行分析 — コピペ4倍増、リファクタリング25%→10%下落 gitclear.com

Anthropic・OpenAI「100% AIコード」発言報道 Boris ChernyとRoonが本人コード100%がAIと主張 fortune.com

Quantifying AI Coding Impact Adam Ferrariの測定パターン分析 — PCWの限界と代替指標提案 adamferrari.substack.com

AIコードレビュー信頼度を高める開発組織運営原則 韓国の社内導入事例 — AIレビューの上にシニアレビューを重ねる二重構造 brunch.co.kr

よくある質問

PRをレビューするときどこから見ればAIコードの罠を素早く掴めますか?

diffレイアウトとテストアサーションの2箇所です。AIは変更不要な領域まで一緒に修正する傾向があるので、diff範囲が異常に広いなら意図から聞くのが速いです。次にテストはアサーションが入力値とほぼ同一だったり、happy pathしかなかったりするか確認してください。自己充足的テストパターンが最も頻出する罠です。

Windsurf PCWやCursor AI ShareをKPIに使うのはダメですか?

KPIには不適切です。同じツール・同じチーム内で四半期推移を見るdirectional proxyとしてだけ使ってください。絶対値で比較すると自動閉じカッコ、ペースト、リファクタリングなどの測定バイアスが累積して、AI比重が過大評価された数字が意思決定に入ります。KPIはPRサイクルタイム、事後修正率、ロールバック率のような結果指標を使ってください。

Boris Chernyのような100% AIコードという主張は嘘ですか?

嘘というよりコンテキストが足りない発言です。同じFortune記事でAnthropic広報担当は社内平均が70〜90%、Claude Code自体のコードも90%水準と語っています。100%は特定シニアの個人ワークフロー限定で、それすら「手で打たない」という意味であって「レビュー・修正なしにマージ」ではありません。役員の発言はPR指標で検証すべきです。

AIが作ったコード比率を会社が必ず測定すべき理由はありますか?

法務リスクのために正確には知っておくべきです。米国でAI生成著作物が著作権保護対象外という立場が固まりつつあるので、コード資産のどの部分が人間の貢献かを保守的に識別できるべきです。ただし測定結果を人事決定や対外PR(「うちのコードのX%がAI」)に使うのは危険です。

1人分の検証ループから始めるなら何を最初に導入しますか?

重複コード検出ツールを1つだけPR自動チェックに追加してください。jscpd、SonarQube duplications、またはGitHub Actionsに簡単なgrepスクリプトでも十分です。GitClear研究で4倍増えたというコピペコードが最も速く現れるシグナルで、一度阻止しておくと残りの検証負債が目に見えて減ります。