datocms-assets.com

오픈소스 AI가 GPT보다 싸졌다 — Baseten이 5개월 만에 $5B→$13B된 이유

AI 추론 비용, Baseten, 오픈소스 AI 모델, 인퍼런스 레이어, AI 인프라 투자AI 인퍼런스 인프라

AI inference startup Baseten reportedly raising $1.5B months after its last mega-round

Baseten $1.5B Raise and the AI Inference Gold Rush

하이퍼스케일러 투자 경쟁 본격화 — AI 인프라 투자 1조 달러 시대

단 5개월 만에 밸류에이션이 $5B → $13B. GPT나 Claude를 만드는 회사가 아니에요. 모델을 운영하는 인프라를 파는 스타트업이에요.

Baseten의 폭발은 우연이 아니에요. AI 비용 구조에서 아직 많은 팀이 모르는 전환이 일어나고 있거든요.

3초 요약

OpenAI 직결 → 추론 비용 폭증 → 오픈소스 성숙 → 추론 레이어 부상 → 최대 30% 절감

모델이 좋아질수록 운반 비용이 전쟁터가 된다

AI 투자는 오랫동안 모델 개발에 집중됐어요. OpenAI, Anthropic, xAI에 수백억이 몰렸죠. 그런데 잘 알려지지 않은 사실이 있어요.

AI 총비용의 80~90%는 추론에서 발생해요

모델 훈련 비용은 전체 AI 운영 비용의 10~20%에 불과해요. 나머지 80~90%는 모델을 실제로 실행하는 추론(inference)에서 나와요. 사용자가 질문을 보낼 때마다 비용이 발생하는 구조예요.

2023년에 추론이 AI 컴퓨팅에서 차지하는 비중은 전체의 1/3이었어요. 2026년엔 2/3를 넘겼어요. AI가 실제 서비스에 대규모로 쓰이기 시작했기 때문이에요. 동시에 좋은 소식도 생겼어요. AI 추론 비용이 2023년 이후 토큰당 $20에서 $0.07로 급락했어요. 문제는 여전히 많은 팀이 OpenAI, Anthropic 같은 폐쇄형 API에 직결한 채 더 비싼 가격을 내고 있다는 거예요.

오픈소스 모델의 품질이 급격히 높아졌거든요. Llama 3.3, Mistral, Qwen 같은 모델들이 다수의 벤치마크에서 GPT-4급에 근접하면서, 오픈소스로 라우팅하면 비용을 최대 30~50% 절감할 수 있는 상황이 됐어요. 그런데 이걸 직접 구현하려면 20개 클라우드, 수십 개 모델, 자동 라우팅 로직이 필요해서 엔지니어링 비용이 만만치 않아요.

그게 바로 Baseten이 파고든 자리예요.

5개월에 매출 3배, Baseten은 실제로 뭘 해주는 건데

Baseten은 GPU를 소유하지 않아요. 대신 18개 클라우드 제공업체의 87개 글로벌 클러스터를 연결하고, 추론 요청을 가장 비용 효율적인 경로로 라우팅해요. "AI 인프라 오케스트레이터"예요.

$200M→$600M

ARR, 단 1분기 만에 3배

1,900%

연간 매출 성장률

10억 건

하루 처리 추론 요청

고객사로는 Cursor(AI 코딩 에디터), Notion, Mercor가 있어요. 그중 OpenEvidence는 전 세계 수십만 명의 의사에게 AI로 의료 정보를 실시간 제공하는 스타트업인데, Baseten으로 전환하면서 구체적인 성과가 나왔어요.

78%

지연 시간 감소 (700ms → 160ms)

배포 속도 향상

8x+

인프라 관리 부담 감소

"Baseten에서는 모든 게 그냥 작동해요. 기반 인프라에 쏟던 복잡함이 사라졌어요."
— Zachary Ziegler, OpenEvidence 공동창업자 & CTO

비용 절감뿐 아니라 엔지니어링 부담까지 흡수해줘요. Baseten 매출은 연간 1,900% 성장했고, 2025년 추론 볼륨은 40배 성장했어요.

	폐쇄형 API 직결	추론 레이어 경유
모델 선택	1개 제공사 종속	20개+ 클라우드, 오픈소스 포함
토큰 비용	고정 가격	최대 50% 이상 절감 가능
지연 최적화	제공사 통제	멀티 클라우드 자동 라우팅
배포 속도	수시간~수일	1시간 이내 (OpenEvidence 사례)
벤더 락인	높음	낮음

지금 내 팀 AI 비용, 어디서 새는지 점검하는 법

Baseten 자체를 쓸 계획이 없어도, 이 시장이 말해주는 건 명확해요. AI를 프로덕션에서 운영하는 팀이라면, 추론 비용 구조를 지금 당장 점검해야 해요.

AI 토큰 비용 리뷰
지난 3개월 OpenAI/Anthropic 청구서를 꺼내서 어떤 모델에 얼마가 나가는지 확인하세요. 대부분 팀은 비용의 70~80%가 2~3가지 API 호출 유형에 집중돼 있어요.
작업별 모델 티어 분류
모든 작업에 GPT-4/Claude Opus가 필요한 건 아니에요. 단순 분류, 요약, 임베딩은 소형 오픈소스 모델로 충분한 경우가 많아요. 작업 유형별로 필요한 성능 임계치를 파악하세요.
오픈소스 대안 품질 테스트
Together AI, Modal Labs, Baseten 모두 무료 테스트 환경을 제공해요. 현재 API와 동일한 작업을 Llama 3.3, Mistral 등 오픈소스 모델로 돌려보고 결과를 비교해보세요.
비용-품질 계산
품질이 비슷하다면 연간 얼마를 절감할 수 있는지 계산해보세요. 월 AI 비용이 $500 이상이라면 추론 레이어 도입이 ROI 측면에서 합리적이에요.
점진적 전환 시작
전체 시스템을 한 번에 바꾸지 말고, 비용 비중이 크고 성능 임계치가 낮은 API 호출 1~2개부터 오픈소스로 전환해보세요. 품질 지표를 모니터링하면서 범위를 넓혀가면 돼요.

오픈소스가 항상 답은 아니에요

의료·금융·법무 같은 규제 산업, 멀티모달 기능, 최첨단 추론 성능이 필요한 경우는 폐쇄형 API가 여전히 유리해요. 비용 절감을 위해 품질을 희생하지 마세요. 반드시 실제 작업으로 품질을 먼저 검증한 뒤 전환하세요.

🔗

더 깊이 파고 싶다면

Announcing Baseten's Series F

$1.5B 투자 유치 공식 발표 — 20x 매출 성장, 40x 추론 볼륨 성장 수치 포함.

OpenEvidence Case Study

78% 지연 감소·6배 빠른 배포를 달성한 의료 AI 스타트업 실전 사례.

AI Inference vs Training Infrastructure: Why the Economics Are Diverging

추론 vs 훈련 인프라 경제학 차이를 수치로 정리한 심층 분석.

Baseten Revenue & Funding Analysis

Sacra의 독립 수치 분석 — 밸류에이션 멀티플과 성장 트레젝토리 비교.

Baseten Nears $1.5B Raise, Tripling in Five Months

투자 라운드 구조와 경쟁 환경 심층 분석.

AI inference startup Baseten reportedly raising $1.5B

TechCrunch 최초 보도 — 투자 배경과 시장 맥락.

자주 묻는 질문

Baseten 같은 추론 레이어를 쓰면 OpenAI API를 완전히 대체할 수 있나요?

모든 작업을 대체하는 건 아니에요. 단순 분류, 요약, 임베딩처럼 성능 임계치가 낮은 작업부터 오픈소스로 전환하는 게 현실적이에요. GPT-4/Claude 최신 모델만의 고유 기능이 필요한 작업은 여전히 직결해야 해요.

오픈소스 모델이 GPT-4 수준에 정말 도달했나요?

범용 작업 기준으로는 거의 근접했어요. Llama 3.3 70B, Qwen2.5 72B 등이 다수 벤치마크에서 GPT-4 Turbo와 비슷하거나 앞서요. 다만 멀티모달, 복잡한 추론, 최신 지식이 필요한 작업은 아직 격차가 있어요. 본인 서비스의 실제 작업으로 직접 테스트해보는 게 가장 정확해요.

Baseten 외에 비슷한 추론 레이어 서비스가 있나요?

Together AI, Fireworks AI, Modal Labs가 같은 카테고리에 있어요. Together AI는 $1B+ ARR을 넘겼고, Modal Labs는 $4.65B 밸류에이션을 받았어요. 각각 포지셔닝이 다르니 사용하는 모델 유형과 클라우드 환경에 맞게 직접 비교해보는 걸 추천해요.

OpenAI가 가격을 더 낮추면 추론 레이어 시장의 의미가 없어지지 않나요?

토큰 가격은 매년 급락하고 있지만, 오픈소스 모델 품질도 동시에 빠르게 올라가고 있어요. 멀티 클라우드 유연성, 벤더 락인 회피, 엔지니어링 부담 감소가 추론 레이어의 핵심 가치예요. Baseten CEO도 오픈소스가 좋아질수록 우리도 성장한다고 했어요.

현재 AI API를 직결해 쓰는데 지금 당장 뭘 해야 하나요?

지난 3개월 AI 비용 청구서에서 가장 비용이 큰 API 호출 유형을 파악하세요. 월 $500 미만이면 당장 급하지 않아요. 그 이상이면 Together AI나 Baseten의 무료 테스트 환경에서 해당 작업을 오픈소스 모델로 돌려보고 품질을 비교해보세요. 30분이면 개략적인 비용-품질 트레이드오프를 확인할 수 있어요.