한 줄 요약DeepSeek V4-Pro가 출력 1M 토큰을 $3.48에 풀면서, GPT-5.5($30)와 9배 차이가 났어요. 중간 가격대 모델은 사라지는 중이고, 빌더는 "프론티어 + 저가 오픈모델"로 라우팅을 짜야 살아남아요.

2026년 4월, DeepSeek가 V4를 공개했어요. 1.6조 파라미터에 49B만 활성화되는 MoE 구조, MIT 라이선스, 그리고 출력 1M 토큰 $3.48이라는 가격표. 같은 주에 OpenAIGPT-5.5를 발표했고, 출력은 $30이에요.

표면적으로는 "또 가격 내렸네" 같은 뉴스예요. 그런데 The New Stack의 Janakiram MSV가 짚은 진짜 변화는 따로 있어요. 중간 가격대 모델이 통째로 빠져나가고 있다는 거예요.

이게 뭔데?

예전엔 LLM 시장이 입문 → 미들 → 프론티어 3단 구조였어요. 가격도 성능도 계단처럼 올라갔죠. 그런데 2026년 봄, 이 계단의 가운데 칸이 무너졌어요.

위쪽엔 GPT-5.5, Opus 4.7 같은 프론티어 모델이 있어요. 한 번에 복잡한 추론을 끝내고, 에이전트 워크플로우를 깔끔하게 돌려요. 가격은 비싸요. 1M 출력 토큰이 $25~$30예요.

아래쪽엔 DeepSeek V4-Flash, V4-Pro 같은 저가 오픈모델이 있어요. V4-Flash는 출력 $0.28, V4-Pro는 $3.48이에요. V4-Pro는 BrowseComp에서 83.4%로 Opus 4.7(79.3%)을 이겼어요. 즉 "싸지만 못 쓸 정도는 아니다"가 아니라, 일부 벤치는 프론티어를 넘어요.

그럼 가운데는요? GPT-5.4($2.50/$15), Sonnet 4($3/$15) 같은 미들 티어요. 가격은 V4-Pro의 4~5배인데 일반 워크로드 성능 차이는 미미해요. 사용자 입장에서 "굳이 미들을 쓸 이유"가 빠르게 사라지고 있어요.

DeepSeek V4와 GPT-5.5 가격 비교 그래픽
DeepSeek V4-Pro와 GPT-5.5의 출력 가격은 9배 차이. 가운데 가격대는 빠르게 비워지고 있어요.

뭐가 달라지는 건데?

Janakiram MSV가 이걸 "AI 미들 클래스의 소멸"이라고 부른 이유가 있어요. 미들 모델 의존도가 높은 빌더는 가격으로도, 성능으로도 갈 데가 없어요. 위는 비싸서 못 따라가고, 아래는 마진이 안 나와서 아예 다른 게임이에요.

이게 단순한 가격 변동이 아니라 구조 재편인 이유는 세 가지예요.

항목 프론티어 (GPT-5.5) 저가 오픈 (V4-Pro) 사라지는 미들 (GPT-5.4)
입력 / 출력 가격 (1M) $5 / $30 $1.74 / $3.48 $2.50 / $15
Terminal-Bench (코딩) 82.7% 67.9% (Pro-Max) 약 60%대
SWE-Bench Pro 58.6% 55.4% 50% 미만
BrowseComp (웹 추론) 83.4%
라이선스 독점 API MIT (자체 호스팅 가능) 독점 API
존재 의미 최고 난이도 작업 90% 일상 워크로드 점점 모호

벤치 출처는 Artificial Analysis, OpenAI 공식 발표, DeepSeek API Docs예요.

출력 가격 차이
GPT-5.5 vs V4-Pro
1.6TV4-Pro 총 파라미터
활성 49B (MoE)
83.4%V4-Pro BrowseComp
Opus 4.7(79.3%) 상회
MITV4 라이선스
자체 호스팅 합법

1. 가격 곡선이 U자가 됐어요

예전엔 가격-성능이 직선에 가까웠어요. 두 배 비싸면 두 배 좋다는 식. 지금은 가운데가 푹 꺼진 U자 곡선이에요. 같은 $3 구간에서 V4-Pro와 Sonnet 4가 비슷한 성능을 내는데, V4-Pro는 오픈웨이트라 라우팅·자체 호스팅 자유도가 훨씬 커요.

2. 라우팅이 옵션이 아니라 의무가 됐어요

Augment Code의 2026 가이드는 명확해요. "단일 모델 베팅은 끝났다". 코딩 에이전트라도 작업 복잡도에 따라 V4-Flash → V4-Pro → GPT-5.5로 분기해야 단가 곡선이 맞아요. 라우팅 안 하면 돈을 태워요.

3. 오픈웨이트가 게임 체인저가 됐어요

V4-Pro는 MIT 라이선스로 풀려서 Together AI, Fireworks, Hyperbolic 같은 호스팅 사업자가 즉시 서빙했어요. 데이터를 중국 본토로 안 보내고 싶으면 미국·EU 사업자를 쓰면 돼요. "중국 모델이라 못 쓴다"는 핑계가 작아진 셈이에요.

현실 체크. 미들 티어에 배포된 기존 프로덕션을 당장 갈아엎으라는 얘기가 아니에요. 다만 새 기능 설계, 트래픽 급증 구간, 비용 분석 결과가 안 좋은 엔드포인트부터 라우팅을 도입하는 게 안전해요.

핵심만 정리: 시작하는 법

4단계로 라우팅 구조를 깔 수 있어요. 첫 도입은 if문 5줄로 충분해요.

  1. 워크로드 분류 (1일): 지난 한 달 API 호출을 "단순 분류·요약·번역" / "코드 생성·복잡 추론" / "에이전트 멀티스텝"으로 나눠요. 비율을 보면 어디에 비싼 모델이 낭비되는지 보여요.
  2. 2단 분기로 시작 (반나절): 단순 작업은 V4-Flash($0.14/$0.28), 복잡 작업은 GPT-5.5 또는 Opus 4.7로 보내요. 가운데 V4-Pro는 단순이 어려워질 때 fallback으로 둬요.
  3. 게이트웨이 도입 (1주): 트래픽이 늘면 OpenRouter, Portkey, LiteLLM 중 하나로 옮겨요. SDK 한 줄 바꾸면 모델 가중치, 비용 한도, 자동 fallback이 다 들어와요.
  4. 관측·튜닝 루프: 모델별 평가 데이터셋(자기 도메인 100~300건)을 만들고 주 1회 회귀 테스트. "정확도 - 비용" 파레토 프론티어에서 모델을 빼고 더해요.
Tip. 첫 측정 지표는 단가가 아니라 "태스크당 평균 비용"이에요. 1M 토큰 단가는 마케팅용이고, 실제 마진은 "한 작업이 몇 토큰을 먹는가 × 모델 가격"이에요. V4-Flash가 빨리 끝내면 GPT-5.5보다 싸지는 게 당연한 거예요.