OpenAI의 차세대 이미지 모델이 공개도 전에 세상에 나왔습니다. GPT-Image-2가 LM Arena에서 세 개의 코드네임으로 테스트되다 커뮤니티에 발각된 건데요. "이미지 AI가 텍스트를 못 쓴다"는 고질적 한계가 이번에 진짜 풀렸을 수 있어요.

이게 뭔데?

GPT-Image-2는 OpenAI가 준비 중인 차세대 이미지 생성 모델입니다. 아직 공식 발표 전이지만, 2026년 4월 초 LM Arena(AI 모델 블라인드 테스트 플랫폼)에서 maskingtape-alpha, gaffertape-alpha, packingtape-alpha라는 세 가지 코드네임으로 등장했다가 몇 시간 만에 제거됐어요.

개발자 Pieter Levels(@levelsio)가 최초로 이 모델들을 식별하면서 화제가 됐고, 커뮤니티가 캡처한 결과물들이 쏟아져 나왔습니다. 핵심은 두 가지예요:

  • 텍스트 렌더링: 이미지 안에 텍스트를 넣으면 또렷하고 정확하게 표시됨
  • 세계 지식(World Knowledge): 실제 브랜드, 인터페이스, 사물의 구체적인 모습을 정확히 알고 있음

또 GPT-Image-1에서 유저들을 괴롭히던 노란색 필터(yellow tint)도 사라진 것으로 보입니다.

뭐가 달라지는 건데?

비교 항목GPT-Image-1.5 (현재)GPT-Image-2 (유출)
아키텍처4o 기반완전히 새로운 독립 아키텍처
텍스트 렌더링 정확도~95%99%+ (예상)
색감노란색 틴트 있음자연색, 노란 필터 제거
포토리얼리즘높음사진 수준에 근접
세계 지식양호대폭 강화 (브랜드, UI, 손글씨 등)
종횡비 지원1:1, 3:2, 2:316:9 와이드스크린 추가 확인

기존 AI 이미지 모델의 가장 큰 약점은 세 가지였어요: 텍스트가 깨지고, 손이 이상하고, 실제 사물을 정확히 못 그리는 것. GPT-Image-2는 이 세 가지를 동시에 공략한 것으로 보입니다.

커뮤니티가 실제로 만든 것들

블라인드 테스트 중 생성된 이미지들이 커뮤니티에서 공유됐는데, 사람들은 AI가 만든 이미지를 구분하지 못했습니다.

  1. IKEA 매장 야경
    실제 사진으로 착각할 수준. 간판 폰트, 조명, 입구 사인까지 정확하게 재현됐어요.
  2. YouTube·Windows 인터페이스
    스크린샷으로 오인할 정도의 UI 정확도. 버튼 텍스트, 레이아웃이 실제와 일치했습니다.
  3. 의료 손글씨 노트
    사람이 직접 쓴 것 같은 필체. 기존 모델에서는 불가능했던 수준이에요.
  4. 시계 바늘 테스트
    특정 시간을 지정하면 시계 바늘이 정확한 위치를 가리킴. Nano Banana Pro는 이 테스트에서 실패했습니다.
  5. 만화책 패널
    스파이더맨, 배트맨의 코스튬 디테일과 읽을 수 있는 말풍선까지 정확하게 생성.

왜 이게 "진짜" 달라진 걸까?

기존 GPT-Image-1.5가 4o(GPT-4 Omni) 기반이었다면, GPT-Image-2는 완전히 새로운 아키텍처를 쓰고 있다는 분석이 나옵니다. 아키텍처 자체가 바뀌었기 때문에 단순 업그레이드가 아니라 세대 교체에 가깝다는 거예요.

또 하나 중요한 배경: OpenAI가 2026년 3월 24일 Sora를 종료했습니다. 하루 1,500만 달러의 추론 비용을 감당할 수 없었기 때문인데, 이때 확보된 GPU 자원이 GPT-Image-2 학습과 추론에 재배치된 것으로 추정됩니다.

핵심만 정리: 시작하는 법

GPT-Image-2는 아직 공식 출시 전이지만, 일부 ChatGPT 사용자가 이미 A/B 테스트로 접할 수 있다는 보고가 있어요. 지금 바로 할 수 있는 것들을 정리해볼게요.

GPT-Image-2가 적용됐는지 확인하는 법
프롬프트 끝에 "Format 16:9"을 추가해보세요. 16:9 와이드 이미지가 생성되고, 텍스트가 선명하며, 노란 틴트가 없다면 새 모델에 연결된 것입니다.

  1. 복잡한 이미지 생성 반복 시도
    ChatGPT Images에서 텍스트가 많은 포스터, 인포그래픽, UI 스크린샷 등을 5~15회 연속 생성하면 새 모델에 연결될 확률이 높아져요.
  2. 텍스트 렌더링 활용 케이스 준비
    제품 목업, 소셜 미디어 카드, 프레젠테이션 슬라이드 등 텍스트 정확도가 중요한 작업을 미리 리스트업하세요.
  3. 경쟁 모델 벤치마크
    Nano Banana Pro, Midjourney V7, Ideogram 3.0 등과 같은 프롬프트로 비교 테스트해보면 차이를 체감할 수 있어요.
  4. API 출시에 대비
    GPT-Image-1.5 API 기준 고품질 1024x1024 이미지가 $0.133/장. GPT-Image-2는 새 아키텍처 때문에 $0.15~0.20 수준으로 소폭 인상될 가능성이 있어요.

경쟁 구도 한눈에

모델핵심 강점GPT-Image-2 대비
Nano Banana ProGoogle 컴퓨팅, 선점 효과블라인드 테스트에서 GPT-Image-2에 밀린 평가 다수
Midjourney V7예술적 스타일, 커뮤니티포토리얼리즘·텍스트 렌더링에서 열세
FLUX Pro오픈소스, 로컬 배포세계 지식·복잡 장면 처리에서 차이
Ideogram 3.0텍스트 렌더링 특화단일 차원이 아닌 종합력에서 GPT-Image-2가 우위

LM Arena 블라인드 테스트 방식

LM Arena는 사용자가 모델 이름을 모르는 상태에서 두 결과물을 비교 평가하는 플랫폼이에요. 마케팅 없이 순수 실력으로 Elo 점수가 매겨지기 때문에, 여기서 높은 점수를 받으면 실제 성능이 검증된 셈입니다. OpenAI는 2025년 12월에도 Chestnut, Hazelnut이라는 코드네임으로 테스트를 거친 뒤 GPT-Image-1.5를 출시한 바 있어요.

Sora 종료와 GPU 재배치

Sora는 2026년 3월 종료됐는데, 피크 시 하루 추론 비용만 1,500만 달러였어요. 전체 수명 동안 인앱 매출은 210만 달러에 불과했고요. Sam Altman은 "차세대 자동화 연구원과 엔터프라이즈 애플리케이션에 컴퓨팅을 집중하겠다"고 밝혔는데, GPT-Image-2가 그 수혜자 중 하나로 보입니다.

다국어 텍스트 렌더링

터키어권 유저들이 GPT-Image-2의 비라틴 문자 렌더링 능력을 테스트했는데, 이전 모델보다 훨씬 정확하게 처리했다는 보고가 있어요. 한국어, 아랍어 등에서도 개선이 기대됩니다.