누가 인스타에 "GPT Image 2 × Seedance 2.0 = the AI combo breaking the internet"이라고 올렸어요. 처음엔 과장인 줄 알았는데, 뜯어보니 정말이었어요.

3초 요약
아이디어 GPT Image 2 (3×3 storyboard) Seedance 2.0 (15s 1080p + 오디오) 피칭 가능한 트레일러

이게 뭔데?

2026년 4월 21일, OpenAI가 GPT Image 2를 출시했어요. reasoning이 내장된 첫 OpenAI 이미지 모델이고, 텍스트 렌더링이 대폭 개선되어서 다중 스크립트 레이아웃이 처음으로 상업적으로 쓸 만해졌어요. 두 달 전 2월에는 ByteDance Seed 팀이 Seedance 2.0을 내놨어요. 텍스트·이미지·비디오·오디오를 한꺼번에 받는 멀티모달 비디오 모델이고, HLE-Verified 73.6%로 GPT-5.2(68.5%)와 Gemini-3-Pro(67.5%)를 앞섰어요.

근데 이 둘이 각자 화제가 된 게 아니에요. 두 모델이 묶일 때 인터넷이 뒤집어졌어요. 누군가 두 도구만으로 AAA 게임 풍의 트레일러를 만들고, 또 누군가는 호러 단편과 애니메이션 파일럿을 같은 조합으로 찍었어요. 핵심 워크플로우는 단순해요. GPT Image 2가 storyboard를 정의하고, Seedance 2.0이 그 storyboard를 모션으로 압박 테스트해요. 이미지 모델이 청사진을 그리면, 비디오 모델이 그 청사진이 시간·카메라·사운드 안에서 살아남는지 검증하는 거죠.

예전 AI 워크플로우는 이미지 따로, 비디오 따로였어요. 나중에 합쳐 끼우는 식이었죠. 지금은 한 도구의 출력이 다음 도구의 입력이에요. 이미지 생성과 비디오 생성을 잇는 handoff(인계) 그 자체가 결합의 가치예요.

3×3
storyboard 그리드 (한 컷에 9 패널)
15초
Seedance 2.0 1080p + 네이티브 오디오
2~3배
단일 image-to-video 대비 프로토타이핑 속도
$0.053
GPT Image 2 medium 1024×1024 1장

왜 도구 1개로는 안 되는 건데?

씨앗이 된 인스타 릴 댓글에서 한 줄이 가장 정확했어요. "Single-tool platforms quietly limit creative output not by being bad tools, but by forcing creators to do translation work between stages." — 도구가 나빠서가 아니라, 단일 도구는 단계 간 번역 작업을 사용자에게 떠넘기기 때문에 한계가 생기는 거예요.

도구 1개 시대 GPT Image 2 + Seedance 2.0
작업 방식 이미지 따로, 비디오 따로 → 사후 합성 storyboard → 시퀀셜 모션 (handoff)
검증 시점 완성된 클립을 보고 판단 정적 컨셉이 모션에서 압박 테스트됨
일관성 모델 간 캐릭터·스타일 표류 청사진 1장이 시퀀스 전체를 지배
산출물 개별 컷 1080p 15초 트레일러 + 네이티브 오디오
피칭력 컨셉 아트 + 시놉시스 "moving proof" — 톤·페이싱·캐릭터 프레즌스

이게 의미하는 건 명확해요. 작은 팀이나 1인 크리에이터가 처음으로 협업자/투자자한테 보여줄 "moving proof"를 만들 수 있어요. 컨셉 아트만 있는 사람과 15초 무빙 트레일러가 있는 사람의 협상력은 다른 차원이에요.

5가지 결합 문법

  1. 청사진 → 모션 (Blueprint → Pressure Test)
    이미지 모델은 캐릭터·환경·구도를 정의해요. 비디오 모델은 그 정의가 시간·카메라·사운드 안에서 살아남는지 봐요. 정적 디자인이 모션에서 무너지는 게 한 번 보여야 진짜 디자인이 됐다고 할 수 있어요.
  2. 3×3 그리드 → 15초 시퀀스 (Grid → Sequence)
    GPT Image 2로 9개 패널의 storyboard 그리드를 한 장에 만들고, Seedance가 그걸 시퀀셜 멀티-샷 내러티브로 해석해요. 단일 image-to-video보다 페이싱이 안정적이고 2~3배 빨라요.
  3. Reasoning ↔ Speed (생각 모드 ↔ 빠른 모드)
    GPT Image 2의 thinking mode를 켜면 레이아웃·텍스트·공간 추론이 정확해지지만 느려요. 끄면 가벼운 배치 작업에 적합해요. 컷마다 켜는 게 아니라 결정 컷에만 켜요.
  4. 참조 → 편집 (Reference → Iteration)
    GPT Image 2는 generation과 edits를 같은 API에서 처리해요. 인페인팅 파이프라인을 따로 만들 필요가 없어요. 한 컷의 의상 색만 바꾸고 다음 시퀀스로 넘기는 게 한 호출에 끝나요.
  5. 개념 → 피칭 가능한 산출물 (Concept → Pitchable Artifact)
    결합의 진짜 가치는 "보여줄 수 있는 것"의 종류가 바뀌는 거예요. 컨셉 아트는 정적인 가능성을 보여주지만, 무빙 트레일러는 톤·페이싱·캐릭터 프레즌스를 다 담아요.

저작권은 알고 쓰세요

Seedance 2.0 출시 직후 디즈니가 내용증명을 보냈고 MPA·SAG-AFTRA가 성명을 냈어요. 두 모델 모두 학습 데이터 출처가 명확하지 않아요. 상업용으로 쓸 때는 직접 권리를 가진 소스만 reference로 쓰는 게 안전해요.

핵심만 정리: 시작하는 법

  1. GPT Image 2 액세스 + Tier 점검
    모델 ID는 gpt-image-2-2026-04-21 스냅샷으로 박아요. Tier 1은 5 imgs/min만 되니 batch 워크로드라면 Tier 3(50 imgs/min, $100 누적 + 7일 계정)까지는 미리 올려놓는 게 안전해요.
  2. Seedance 2.0 액세스 잡기
    fal.ai, WaveSpeedAI, Pixazo API 등 통합 제공자로 시작하면 두 도구를 한 키로 묶을 수 있어요.
  3. 3×3 storyboard 그리드부터
    9개 패널의 핵심 컷을 GPT Image 2로 한 장에 생성해요. 캐릭터·세트·조명을 모든 패널에 일관되게 잡는 게 결합의 출발점이에요.
  4. Seedance에 그리드 통째로 넘기기
    패널 순서대로 시퀀셜 비디오로 변환해요. 1080p · 15초 · 네이티브 오디오. 페이싱이 무너지면 그리드를 다시 짜요.
  5. 비용/Latency 트레이드오프 결정
    thinking mode + medium quality는 1024×1024 기준 약 $0.053/장. batch tier로는 절반. 결정 컷에만 thinking mode를 쓰는 식으로 분기해요.