Uber Claude Code AI 예산 4개월 소진 — Project Flux 분석 배너

beehiiv-images-production.s3.amazonaws.com

Uber가 4개월 만에 1년치 AI 예산을 태웠다 — Claude Code가 만든 governance 위기

Uber, Claude Code, AI 예산, FinOps for AI, 토큰 governanceAI 비용 관리

Project Flux — Blown by April: Uber R&D 분석

Om Bharatiya — Uber Blew Its AI Budget in One Quarter

Hacker News — Uber 2026 AI 예산 토론 (briefs.co 원문 토론)

Uber CTO가 The Information에 한 줄 흘렸다. "내가 필요할 거라 봤던 예산이 이미 다 날아갔다(blown away already)."

2026년 1월~4월 4개월 만에, R&D 35억 달러 회사의 1년치 AI 예산이 모조리 소진됐다. 주범은 Claude Code다. 이건 "AI가 비싸다"는 이야기가 아니다 — 인센티브 구조가 토큰 폭주를 만든 이야기다. 다른 모든 회사가 똑같이 향하고 있다.

이게 뭔데?

Uber CTO Praveen Neppalli Naga가 The Information에 공식 인정했다. 2026년 전체 AI 예산이 4월 시점에 이미 소진됐다고. 운영 데이터의 핵심 수치들이 같이 풀렸다 —

Uber 엔지니어 95%가 매월 AI 코딩 도구 사용, 84%가 "에이전틱 코딩 사용자"로 분류
커밋되는 코드의 70%가 AI 생성, 백엔드 라이브 코드 변경의 11%가 AI 에이전트 자동 작성
주당 1,800건 코드 변경이 AI에서 나옴
2024년 대비 AI 비용 약 6배 증가, 2025년 R&D 지출 $34억 (YoY +9%)
Cursor 채택은 정체, Claude Code가 사실상 사내 표준이 됨

그런데 같은 기간 Uber의 R&D 지출 증가율은 9%. 코드의 70%가 AI에서 나오는데 결과물 증가는 9%면, 나머지 토큰은 어디로 갔을까? Om Bharatiya의 분석 — 일부는 출시됐고, 일부는 탐색이었고, 일부는 "마찰이 0이 되니까 안 짜도 될 코드까지 짠 것"이다.

왜 governance가 진짜 원인인 건데?

Uber가 한 결정 중 가장 치명적인 한 가지는 사내 리더보드였다. 엔지니어를 AI 사용량 순으로 줄세웠다.

이게 왜 문제냐 — 영업팀을 "성사된 거래" 대신 "건 통화 수"로 평가하는 것과 같다. 소비를 최적화하면 가치가 아니라 소비가 폭증한다. 같은 시기 Meta는 "Claudeonomics"라는 사내 대시보드를 만들어 8.5만 명 직원의 토큰 사용량을 추적했는데, 한 개인이 30일에 281B 토큰(~$1.4M)을 썼다는 데이터가 나오자 이틀 만에 대시보드를 죽였다. 데이터가 틀려서가 아니다. 너무 부끄러워서다.

구분	Uber (소비 최적화)	현실적 governance
예산 모델	회사 전체 공유 풀	팀별·유스케이스별 할당
모델 라우팅	전부 최고 사양 모델	작업별 분기 (코드 리뷰=Sonnet, 보일러플레이트=Haiku)
측정 지표	"AI 사용 엔지니어 %"	스프린트당 PR, AI 코드 버그율, 배포 시간
인센티브	토큰 사용 리더보드	리더보드 폐지 + 결과 평가
비용 절감 레버	없음	프롬프트 캐싱(-90%) + 배치 API(-50%)

Uber는 4월 들어 "agent engineers" 모델로 전환 중이라고 밝혔다 — AI가 코딩·테스트·배포를 끝까지 처리하고, 인간은 오케스트레이터 역할만. OpenAI Codex도 추가 도입 검토 중. 하지만 더 큰 문제는 따로 있다 —

핵심만 정리: 시작하는 법

리더보드 즉시 폐지
"AI 도구 사용률" 측정을 멈춘다. 이건 vanity metric이고, 측정하는 순간 게임화된다.
팀별 토큰 예산 + 알림
회사 전체 풀이 아니라 팀별 분리. 50%/75%/90% 임계점에서 자동 알림. 클라우드 비용 할당과 동일.
모델 라우팅 레이어
코드 리뷰는 Sonnet, 보일러플레이트는 Haiku, 아키텍처 추론만 Opus. 5~15배 비용 절감, 단순 작업 품질은 거의 동일.
프롬프트 캐싱·배치 API 활성화
Anthropic은 프롬프트 캐싱 -90%, 배치 API -50% 할인. 엔터프라이즈 워크로드는 컨텍스트 중복이 많아서 이것만으로 30~50% 절감 가능.
측정 지표 교체
"AI 사용 %" 대신 "스프린트당 머지된 PR", "AI 코드 버그율", "프로덕션 배포 시간" — 비즈니스 결과로 채점.

자주 묻는 질문

(FAQSection 자동 렌더링 — content에는 포함하지 않음)

🔗

더 깊이 파고 싶다면

Project Flux — Blown by April

The Information 보도의 운영 데이터 분석 — 84% 채택, 11% 라이브 코드 자동 작성 등 수치 정리

Om Bharatiya — Uber Blew Its AI Budget in One Quarter

인프라·governance 관점의 거버넌스 처방전 — 리더보드·모델 라우팅·캐싱 전략

Yahoo Finance — Uber's Anthropic AI Push Hits a Wall

Naga CTO 인용·내부 도구 비교(Claude Code vs Cursor)

Hacker News 토론 스레드

엔지니어들이 본 진짜 원인 — "$1,250 mid-point spend per engineer" 등 추정치

자주 묻는 질문

Claude Code 가격이 비싼 게 진짜 원인 아닌가요?

가격은 부차적이에요. Fireworks AI는 "클로즈드 모델 $20M을 오픈소스 $1M으로 대체 가능"이라고 했지만 이게 함정이에요. 모델이 20배 싸지면 개발자가 25배 더 써요 — 죄책감이 줄어드니까. 단가는 떨어지는데 총 소비는 폭증. 진짜 문제는 "unmetered, ungoverned consumption"이라는 게 Om Bharatiya의 진단이에요. 가격이 아니라 측정·할당·인센티브 구조가 망가진 거예요.

우리 회사도 Uber처럼 될까요?

이미 같은 곡선에 있어요. CIO 4명 중 1명이 "이사회가 AI 지출에 의문 제기 중"이라고 답했고, 엔터프라이즈 5%만 "AI 투자 대비 실제 수익"을 본다고 보고했어요. AI 인프라 투자와 매출 격차가 약 $600B로 추정. Meta는 사내 "Claudeonomics" 대시보드를 만들었다가 한 사람이 30일에 281B 토큰(~$1.4M)을 썼다는 게 드러나자 이틀 만에 죽였어요. 측정 회피가 흔한 1차 반응이에요.

엔지니어 만족도 vs 비용 통제 균형은 어떻게 잡나요?

"AI 도구 사용률" 측정을 즉시 폐지하고, 결과 지표로 교체해요. 스프린트당 머지된 PR, AI 코드 버그율, 프로덕션 배포 시간. 엔지니어 입장에서 "써도 되는 도구"로 인식되되 "많이 쓰는 게 곧 잘하는 것"으로 게임화되지 않게 해야 해요. Uber처럼 리더보드 깔면 토큰 소비가 KPI로 변해서 실패가 정해져 있어요.

모델 라우팅 레이어를 직접 만들어야 하나요?

꼭 자체 구축할 필요 없어요. AWS Bedrock·Vercel AI Gateway·Portkey·LiteLLM 같은 서비스들이 "작업별 모델 분기"를 standalone으로 제공. 코드 리뷰=Sonnet, 보일러플레이트=Haiku, 아키텍처 추론=Opus. 5~15배 비용 절감, 단순 작업 품질은 거의 동일. 1~2주 안에 도입 가능. 직접 구축은 토큰 사용 패턴이 매우 특이한 회사만 의미 있어요.

FinOps for AI 직무가 진짜 생기나요?

이미 생기는 중. AWS·GCP가 "AI Cost Management" 카테고리를 별도로 분리했고, FinOps Foundation도 AI 토큰 비용 워킹 그룹을 발족했어요. 클라우드 FinOps가 5년 걸려서 직무로 자리잡았듯이, AI도 같은 곡선을 따라가요. 200인 이상 엔지니어링 조직에서는 2026년 안에 전담 인력이 생긴다고 봐도 이상하지 않아요. 200인 미만이면 플랫폼 엔지니어가 겸직.