oplexa.com

사라지는 AI 미들 클래스 — DeepSeek vs OpenAI, 빌더가 멍하니 있으면 안 되는 이유

DeepSeek V4, GPT-5.5, AI 모델 가격, 모델 라우팅, AI 비용 최적화AI 모델 가격 양극화

The Disappearing AI Middle Class — Janakiram MSV (The New Stack)

DeepSeek V4 Release — API Pricing & Specs

DeepSeek V4 Pro & V4 Flash Benchmark Analysis

한 줄 요약DeepSeek V4-Pro가 출력 1M 토큰을 $3.48에 풀면서, GPT-5.5($30)와 9배 차이가 났어요. 중간 가격대 모델은 사라지는 중이고, 빌더는 "프론티어 + 저가 오픈모델"로 라우팅을 짜야 살아남아요.

2026년 4월, DeepSeek가 V4를 공개했어요. 1.6조 파라미터에 49B만 활성화되는 MoE 구조, MIT 라이선스, 그리고 출력 1M 토큰 $3.48이라는 가격표. 같은 주에 OpenAI는 GPT-5.5를 발표했고, 출력은 $30이에요.

표면적으로는 "또 가격 내렸네" 같은 뉴스예요. 그런데 The New Stack의 Janakiram MSV가 짚은 진짜 변화는 따로 있어요. 중간 가격대 모델이 통째로 빠져나가고 있다는 거예요.

이게 뭔데?

예전엔 LLM 시장이 입문 → 미들 → 프론티어 3단 구조였어요. 가격도 성능도 계단처럼 올라갔죠. 그런데 2026년 봄, 이 계단의 가운데 칸이 무너졌어요.

위쪽엔 GPT-5.5, Opus 4.7 같은 프론티어 모델이 있어요. 한 번에 복잡한 추론을 끝내고, 에이전트 워크플로우를 깔끔하게 돌려요. 가격은 비싸요. 1M 출력 토큰이 $25~$30예요.

아래쪽엔 DeepSeek V4-Flash, V4-Pro 같은 저가 오픈모델이 있어요. V4-Flash는 출력 $0.28, V4-Pro는 $3.48이에요. V4-Pro는 BrowseComp에서 83.4%로 Opus 4.7(79.3%)을 이겼어요. 즉 "싸지만 못 쓸 정도는 아니다"가 아니라, 일부 벤치는 프론티어를 넘어요.

그럼 가운데는요? GPT-5.4($2.50/$15), Sonnet 4($3/$15) 같은 미들 티어요. 가격은 V4-Pro의 4~5배인데 일반 워크로드 성능 차이는 미미해요. 사용자 입장에서 "굳이 미들을 쓸 이유"가 빠르게 사라지고 있어요.

뭐가 달라지는 건데?

Janakiram MSV가 이걸 "AI 미들 클래스의 소멸"이라고 부른 이유가 있어요. 미들 모델 의존도가 높은 빌더는 가격으로도, 성능으로도 갈 데가 없어요. 위는 비싸서 못 따라가고, 아래는 마진이 안 나와서 아예 다른 게임이에요.

이게 단순한 가격 변동이 아니라 구조 재편인 이유는 세 가지예요.

항목	프론티어 (GPT-5.5)	저가 오픈 (V4-Pro)	사라지는 미들 (GPT-5.4)
입력 / 출력 가격 (1M)	$5 / $30	$1.74 / $3.48	$2.50 / $15
Terminal-Bench (코딩)	82.7%	67.9% (Pro-Max)	약 60%대
SWE-Bench Pro	58.6%	55.4%	50% 미만
BrowseComp (웹 추론)	—	83.4%	—
라이선스	독점 API	MIT (자체 호스팅 가능)	독점 API
존재 의미	최고 난이도 작업	90% 일상 워크로드	점점 모호

벤치 출처는 Artificial Analysis, OpenAI 공식 발표, DeepSeek API Docs예요.

9×출력 가격 차이
GPT-5.5 vs V4-Pro

1.6TV4-Pro 총 파라미터
활성 49B (MoE)

83.4%V4-Pro BrowseComp
Opus 4.7(79.3%) 상회

MITV4 라이선스
자체 호스팅 합법

1. 가격 곡선이 U자가 됐어요

예전엔 가격-성능이 직선에 가까웠어요. 두 배 비싸면 두 배 좋다는 식. 지금은 가운데가 푹 꺼진 U자 곡선이에요. 같은 $3 구간에서 V4-Pro와 Sonnet 4가 비슷한 성능을 내는데, V4-Pro는 오픈웨이트라 라우팅·자체 호스팅 자유도가 훨씬 커요.

2. 라우팅이 옵션이 아니라 의무가 됐어요

Augment Code의 2026 가이드는 명확해요. "단일 모델 베팅은 끝났다". 코딩 에이전트라도 작업 복잡도에 따라 V4-Flash → V4-Pro → GPT-5.5로 분기해야 단가 곡선이 맞아요. 라우팅 안 하면 돈을 태워요.

3. 오픈웨이트가 게임 체인저가 됐어요

V4-Pro는 MIT 라이선스로 풀려서 Together AI, Fireworks, Hyperbolic 같은 호스팅 사업자가 즉시 서빙했어요. 데이터를 중국 본토로 안 보내고 싶으면 미국·EU 사업자를 쓰면 돼요. "중국 모델이라 못 쓴다"는 핑계가 작아진 셈이에요.

현실 체크. 미들 티어에 배포된 기존 프로덕션을 당장 갈아엎으라는 얘기가 아니에요. 다만 새 기능 설계, 트래픽 급증 구간, 비용 분석 결과가 안 좋은 엔드포인트부터 라우팅을 도입하는 게 안전해요.

핵심만 정리: 시작하는 법

4단계로 라우팅 구조를 깔 수 있어요. 첫 도입은 if문 5줄로 충분해요.

워크로드 분류 (1일): 지난 한 달 API 호출을 "단순 분류·요약·번역" / "코드 생성·복잡 추론" / "에이전트 멀티스텝"으로 나눠요. 비율을 보면 어디에 비싼 모델이 낭비되는지 보여요.
2단 분기로 시작 (반나절): 단순 작업은 V4-Flash($0.14/$0.28), 복잡 작업은 GPT-5.5 또는 Opus 4.7로 보내요. 가운데 V4-Pro는 단순이 어려워질 때 fallback으로 둬요.
게이트웨이 도입 (1주): 트래픽이 늘면 OpenRouter, Portkey, LiteLLM 중 하나로 옮겨요. SDK 한 줄 바꾸면 모델 가중치, 비용 한도, 자동 fallback이 다 들어와요.
관측·튜닝 루프: 모델별 평가 데이터셋(자기 도메인 100~300건)을 만들고 주 1회 회귀 테스트. "정확도 - 비용" 파레토 프론티어에서 모델을 빼고 더해요.

Tip. 첫 측정 지표는 단가가 아니라 "태스크당 평균 비용"이에요. 1M 토큰 단가는 마케팅용이고, 실제 마진은 "한 작업이 몇 토큰을 먹는가 × 모델 가격"이에요. V4-Flash가 빨리 끝내면 GPT-5.5보다 싸지는 게 당연한 거예요.

🔗

더 깊이 파고 싶다면

The New Stack 원문 — 미들 클래스 소멸론

Janakiram MSV가 시장 구조를 3단으로 분해하고 빌더 관점의 대응책을 제시한 글이에요.

DeepSeek V4 공식 릴리스 노트

Pro/Flash 가격, MoE 구조, 컨텍스트 길이, 라이선스가 정리돼 있어요. 라우팅 설계 시 1차 자료.

Artificial Analysis V4 벤치마크

Terminal-Bench, SWE-Bench, BrowseComp 등 독립 평가 결과를 표로 비교할 수 있어요.

Augment Code — 2026 코딩 모델 라우팅 가이드

작업 복잡도 → 모델 매핑을 코드 예시로 풀어줘요. 처음 라우팅 짜는 분께 추천.

VentureBeat — V4 1/6 비용 분석

동일 성능 기준 비용 비교, 호스팅 사업자 동향, 엔터프라이즈 도입 시그널을 다뤘어요.

자주 묻는 질문

미들 모델이 진짜 사라지는 건가요?

완전히 사라지진 않지만 사용 비중은 빠르게 줄고 있어요. 같은 가격대에서 DeepSeek V4-Pro가 GPT-5.4 수준 성능을 내는 순간, "중간 가격에 중간 성능" 모델은 존재 이유가 약해져요. The New Stack은 이를 "AI 미들 클래스의 소멸"로 표현했어요.

GPT-5.5 같은 비싼 프론티어 모델은 언제 써야 해요?

복잡한 추론, 안전성이 중요한 도메인(법률·의료·금융), 에이전트 멀티스텝 자동화처럼 한 번 틀리면 손해가 큰 작업에 써요. 일반 챗봇·요약·분류 같은 90% 이상의 일상 워크로드는 V4-Flash($0.14)로도 충분해요.

DeepSeek 같은 중국 오픈모델, 보안은 괜찮나요?

공식 API를 직접 쓸 때는 데이터 정책 검토가 필요해요. 다만 V4-Pro는 MIT 라이선스라 Together AI, Fireworks, OpenRouter 같은 미국·EU 호스팅 사업자가 그대로 서빙해요. 데이터 잔류가 걱정되면 이 우회 경로를 쓰면 돼요.

라우팅을 직접 짜야 하나요? 아니면 프레임워크가 있나요?

OpenRouter의 auto routing, Portkey, LiteLLM 같은 게이트웨이가 정책 기반 라우팅을 제공해요. 처음엔 "복잡도 점수 → 모델" 매핑을 if문 몇 개로 시작하고, 트래픽이 늘면 게이트웨이로 옮기는 게 현실적이에요.

한국 스타트업 입장에서 가장 위험한 시나리오는요?

"GPT만 쓰면 안전하다"는 가정으로 가격이 고정돼 있다고 믿는 경우예요. 경쟁사가 V4-Flash + V4-Pro 라우팅으로 마진을 1/9로 줄이면, 같은 가격에 같은 기능을 팔 수 없어요. 라우팅을 안 하면 가격 경쟁에서 자동으로 밀려요.

Written by 러쉬

비즈니스와 AI가 만나는 접점을 추적합니다.

이 레퍼런스가 도움이 되셨나요?

매주 엄선된 레퍼런스를 메일로 받아보세요

이 레퍼런스 공유하기

다음 읽을 레퍼런스

변호사·의사가 AI를 가장 빨리 받아들였다 — 규제 산업 역설

"보수적인 산업"이라던 법률·헬스케어가 a16z 데이터에서 테크 다음 2·3위로 올라섰어요. Harvey ARR 2억 달러, Abridge 가치 53억 달러. 규제 부담이 큰 산업일수록 AI ROI가 더 빠르게 증명되는 이유를 정리했습니다.

이런 가이드도 추천해요

비슷한 주제의 AI 활용 가이드를 더 살펴보세요

엔비디아 독점에 균열을 내는 한국 카드 — Rebellions, $400M 프리-IPO로 미국 시장 진입

mma.prnewswire.com

AI 인프라한국 AI 반도체, Rebellions IPO, K-Nvidia, NVIDIA 대안, 추론 칩

엔비디아 독점에 균열을 내는 한국 카드 — Rebellions, $400M 프리-IPO로 미국 시장 진입

한국 AI 반도체 스타트업 Rebellions가 4억 달러 프리-IPO 라운드(밸류 $2.34B)를 마무리하며 올해 IPO를 준비합니다. NVIDIA 독점 구도의 추론 칩 시장에 한국이 던진 첫 IPO 카드의 의미와, 사업자가 읽어야 할 신호를 짚어봅니다.

AI가 짠 코드라면서요? — Windsurf 98%의 정체와 PR 한 장에서 진짜 신호 잡는 법

williamoconnell.me

AI 코드 검증AI 코드 검증, AI 메트릭 거짓말, PCW, AI 생성 코드 측정, PR 리뷰 체크리스트

AI가 짠 코드라면서요? — Windsurf 98%의 정체와 PR 한 장에서 진짜 신호 잡는 법

Windsurf의 PCW 98%, Anthropic의 100% AI 코드 — 한 개발자가 직접 실험으로 측정 메트릭이 어떻게 부풀려지는지 까발렸어요. 매니저와 시니어가 PR에서 진짜 AI 기여도를 검증하는 체크리스트.

AI 에이전트 거버넌스, 6개 라이브러리로 끝낸다 — 60+ 엔터프라이즈 배포에서 나온 운영 OS

media2.dev.to

AI 에이전트 거버넌스AI 에이전트 거버넌스, Cohorte AI, Agent Ops, 오픈소스 라이브러리, 엔터프라이즈 AI 운영

AI 에이전트 거버넌스, 6개 라이브러리로 끝낸다 — 60+ 엔터프라이즈 배포에서 나온 운영 OS

Cohorte AI가 60+ 엔터프라이즈 배포에서 반복된 거버넌스 문제를 6개 오픈소스 라이브러리로 정리했어요. 정책·인증·컨텍스트·관찰성·신뢰도 — 에이전트 운영의 새 표준 스택.

다음 →변호사·의사가 AI를 가장 빨리 받아들였다 — 규제 산업 역설