단 5개월 만에 밸류에이션이 $5B → $13B. GPTClaude를 만드는 회사가 아니에요. 모델을 운영하는 인프라를 파는 스타트업이에요.

Baseten의 폭발은 우연이 아니에요. AI 비용 구조에서 아직 많은 팀이 모르는 전환이 일어나고 있거든요.

3초 요약
OpenAI 직결 추론 비용 폭증 오픈소스 성숙 추론 레이어 부상 최대 30% 절감

모델이 좋아질수록 운반 비용이 전쟁터가 된다

AI 투자는 오랫동안 모델 개발에 집중됐어요. OpenAI, Anthropic, xAI에 수백억이 몰렸죠. 그런데 잘 알려지지 않은 사실이 있어요.

AI 총비용의 80~90%는 추론에서 발생해요

모델 훈련 비용은 전체 AI 운영 비용의 10~20%에 불과해요. 나머지 80~90%는 모델을 실제로 실행하는 추론(inference)에서 나와요. 사용자가 질문을 보낼 때마다 비용이 발생하는 구조예요.

2023년에 추론이 AI 컴퓨팅에서 차지하는 비중은 전체의 1/3이었어요. 2026년엔 2/3를 넘겼어요. AI가 실제 서비스에 대규모로 쓰이기 시작했기 때문이에요. 동시에 좋은 소식도 생겼어요. AI 추론 비용이 2023년 이후 토큰당 $20에서 $0.07로 급락했어요. 문제는 여전히 많은 팀이 OpenAI, Anthropic 같은 폐쇄형 API에 직결한 채 더 비싼 가격을 내고 있다는 거예요.

오픈소스 모델의 품질이 급격히 높아졌거든요. Llama 3.3, Mistral, Qwen 같은 모델들이 다수의 벤치마크에서 GPT-4급에 근접하면서, 오픈소스로 라우팅하면 비용을 최대 30~50% 절감할 수 있는 상황이 됐어요. 그런데 이걸 직접 구현하려면 20개 클라우드, 수십 개 모델, 자동 라우팅 로직이 필요해서 엔지니어링 비용이 만만치 않아요.

그게 바로 Baseten이 파고든 자리예요.

5개월에 매출 3배, Baseten은 실제로 뭘 해주는 건데

Baseten은 GPU를 소유하지 않아요. 대신 18개 클라우드 제공업체의 87개 글로벌 클러스터를 연결하고, 추론 요청을 가장 비용 효율적인 경로로 라우팅해요. "AI 인프라 오케스트레이터"예요.

$200M→$600M
ARR, 단 1분기 만에 3배
1,900%
연간 매출 성장률
10억 건
하루 처리 추론 요청

고객사로는 Cursor(AI 코딩 에디터), Notion, Mercor가 있어요. 그중 OpenEvidence는 전 세계 수십만 명의 의사에게 AI로 의료 정보를 실시간 제공하는 스타트업인데, Baseten으로 전환하면서 구체적인 성과가 나왔어요.

78%
지연 시간 감소 (700ms → 160ms)
6x
배포 속도 향상
8x+
인프라 관리 부담 감소

"Baseten에서는 모든 게 그냥 작동해요. 기반 인프라에 쏟던 복잡함이 사라졌어요."

— Zachary Ziegler, OpenEvidence 공동창업자 & CTO

비용 절감뿐 아니라 엔지니어링 부담까지 흡수해줘요. Baseten 매출은 연간 1,900% 성장했고, 2025년 추론 볼륨은 40배 성장했어요.

폐쇄형 API 직결 추론 레이어 경유
모델 선택 1개 제공사 종속 20개+ 클라우드, 오픈소스 포함
토큰 비용 고정 가격 최대 50% 이상 절감 가능
지연 최적화 제공사 통제 멀티 클라우드 자동 라우팅
배포 속도 수시간~수일 1시간 이내 (OpenEvidence 사례)
벤더 락인 높음 낮음

지금 내 팀 AI 비용, 어디서 새는지 점검하는 법

Baseten 자체를 쓸 계획이 없어도, 이 시장이 말해주는 건 명확해요. AI를 프로덕션에서 운영하는 팀이라면, 추론 비용 구조를 지금 당장 점검해야 해요.

  1. AI 토큰 비용 리뷰
    지난 3개월 OpenAI/Anthropic 청구서를 꺼내서 어떤 모델에 얼마가 나가는지 확인하세요. 대부분 팀은 비용의 70~80%가 2~3가지 API 호출 유형에 집중돼 있어요.
  2. 작업별 모델 티어 분류
    모든 작업에 GPT-4/Claude Opus가 필요한 건 아니에요. 단순 분류, 요약, 임베딩은 소형 오픈소스 모델로 충분한 경우가 많아요. 작업 유형별로 필요한 성능 임계치를 파악하세요.
  3. 오픈소스 대안 품질 테스트
    Together AI, Modal Labs, Baseten 모두 무료 테스트 환경을 제공해요. 현재 API와 동일한 작업을 Llama 3.3, Mistral 등 오픈소스 모델로 돌려보고 결과를 비교해보세요.
  4. 비용-품질 계산
    품질이 비슷하다면 연간 얼마를 절감할 수 있는지 계산해보세요. 월 AI 비용이 $500 이상이라면 추론 레이어 도입이 ROI 측면에서 합리적이에요.
  5. 점진적 전환 시작
    전체 시스템을 한 번에 바꾸지 말고, 비용 비중이 크고 성능 임계치가 낮은 API 호출 1~2개부터 오픈소스로 전환해보세요. 품질 지표를 모니터링하면서 범위를 넓혀가면 돼요.

오픈소스가 항상 답은 아니에요

의료·금융·법무 같은 규제 산업, 멀티모달 기능, 최첨단 추론 성능이 필요한 경우는 폐쇄형 API가 여전히 유리해요. 비용 절감을 위해 품질을 희생하지 마세요. 반드시 실제 작업으로 품질을 먼저 검증한 뒤 전환하세요.