1년 전에 AI가 코드의 25%를 썼던 개발자가, 8개월 뒤에는 90%를 맡기고 있어요. IDE도 버렸대요. 50년 된 Vi로 돌아갔고요.

3초 요약
AI 코드 비중 25%→90% IDE 폐기, Vi 복귀 프론티어 모델만 사용 샌드박스 대신 VM 소프트웨어의 형태가 바뀐다

이게 뭔데?

David Crawshaw는 Tailscale 공동 창업자 출신이에요. exe.dev라는 에이전트 플랫폼을 만들고 있고, AI 코딩 에이전트에 대한 실전 기록을 1년 넘게 연재해왔어요. 첫 글이 HN 919점, 두 번째가 615점, 이번 세 번째가 223점을 받으면서 개발자 커뮤니티에서 가장 솔직한 실전 보고서로 꼽혀요.

핵심은 이거예요. 에이전트 하네스(도구)는 1년간 거의 안 변했는데, 모델만 극적으로 좋아졌다는 거예요. Crawshaw가 만든 에이전트 Sketch가 6개월 전에 할 수 있던 것을 인기 에이전트들이 아직도 못 하는 경우가 있대요. 결국 도구가 아니라 모델이 핵심이라는 겁니다.

공개 벤치마크는 전부 게임당했으니 무시하라고까지 말해요. 대신 질적인 변화에 주목하라고요. GPT-2가 처음 말을 한 것 같은 극적인 순간은 없었지만, 꾸준한 개선이 쌓여서 지금은 코드의 90%를 맡길 수 있는 수준이 됐다고요.

25% → 90%
AI가 쓰는 코드 비중 (1년간 변화)
50:50 → 95:5
읽기:쓰기 시간 비율
Vi (50세)
2026년 현재 주력 에디터

뭐가 달라지는 건데?

가장 충격적인 변화는 IDE의 퇴장이에요. 2021년 Copilot이 나왔을 때 IDE는 필수였잖아요. 자동완성과 인라인 편집 덕분에 타이핑 효율이 50% 올라갔으니까요. 그런데 4년 뒤, 에이전트 시대에는 IDE가 필요 없어졌어요. 에이전트는 터미널과 코드베이스 접근만 있으면 되거든요.

Copilot 시대 (2021~2024)에이전트 시대 (2025~)
주력 도구VS Code + Copilot터미널 + Claude Code/Codex
개발자 역할코드 작성 + AI 보조코드 리뷰 + 에이전트 디렉팅
AI 기여도타이핑 효율 50%↑코드의 90%를 직접 작성
시간 배분읽기 50% / 쓰기 50%읽기 95% / 쓰기 5%
에디터IDE 필수Vi/Neovim으로 충분

또 하나 중요한 변화는 프로그램의 수예요. 예전에는 Apple Notes에 "TODO"라고 적어두고 잊어버렸을 아이디어들이 이제 실제로 만들어진대요. Crawshaw 본인은 프로그래밍이 그 어느 때보다 즐겁다고 해요. 만들고 싶었던 프로그램들이 실제로 존재하니까요.

HN 댓글에서는 강한 반론도 나왔어요. 한 개발자는 동료들이 AI로 만들어내는 코드가 테스트도 안 된 slop이라고 하면서 "가스라이팅당하는 기분"이라고 했고요. 코딩 속도가 진짜 병목이 아니라 PR 리뷰, CI/CD 프로세스, IAM 권한 같은 조직 프로세스가 병목이라는 의견도 많았어요. 한 댓글은 이렇게 요약했어요: AI가 5일 프로세스를 4.9일로 줄여줬다고요.

핵심만 정리: 시작하는 법

  1. 프론티어 모델부터 쓰세요
    Crawshaw의 가장 강한 조언이에요. 저렴한 모델을 쓰면 "잘못된 교훈"을 배운대요. 에이전트의 한계가 계속 바뀌고 있어서, 최신 프론티어 모델의 능력을 정확히 알아야 어디까지 맡길지 판단할 수 있어요.
  2. 빌트인 샌드박스를 끄고 VM을 쓰세요
    Claude Code의 "cat foo.txt 실행해도 될까요?" 프롬프트가 생산성을 죽여요. 세션마다 새 VM을 띄우고 에이전트에게 제약 없이 일하게 하는 게 훨씬 나아요.
  3. 코드를 쓰는 게 아니라 읽는 연습을 하세요
    시간 배분이 95:5로 바뀌었어요. 에이전트가 쓴 코드를 빠르고 정확하게 리뷰하는 능력이 새로운 핵심 역량이에요.
  4. "프로그래머에게 최고인 소프트웨어가 모든 사용자에게 최고"라는 원칙을 기억하세요
    Crawshaw의 핵심 철학이에요. 모든 고객에게 에이전트가 생기면, API와 개발자 경험이 곧 사용자 경험이 돼요. 제품을 만들고 있다면 UI보다 API를 먼저 만드세요.

Crawshaw의 Stripe Sigma 사례

Stripe가 SQL 쿼리 시스템(Sigma)과 내장 LLM 어시스턴트를 출시했는데, API 엔드포인트는 아직 비공개 알파였대요. 그래서 에이전트에게 세 문장만 지시해서 Stripe API → 로컬 SQLite → 자체 쿼리 시스템을 만들었어요. Stripe 제품보다 본인 문제를 더 잘 풀었다고요.

HN 커뮤니티의 현실 체크

에이전트 경험은 개인차가 극심해요. 파워 유저인 Crawshaw 같은 사람은 10배 생산성을 경험하지만, 대다수 개발자는 아직 그 수준에 도달하지 못하고 있어요. 워크플로우를 에이전트 중심으로 완전히 재설계하지 않으면, 도구만 바꿔서는 효과를 보기 어렵다는 게 현실이에요.