OpenAI의 차세대 이미지 모델이 공개도 전에 세상에 나왔습니다. GPT-Image-2가 LM Arena에서 세 개의 코드네임으로 테스트되다 커뮤니티에 발각된 건데요. "이미지 AI가 텍스트를 못 쓴다"는 고질적 한계가 이번에 진짜 풀렸을 수 있어요.
이게 뭔데?
GPT-Image-2는 OpenAI가 준비 중인 차세대 이미지 생성 모델입니다. 아직 공식 발표 전이지만, 2026년 4월 초 LM Arena(AI 모델 블라인드 테스트 플랫폼)에서 maskingtape-alpha, gaffertape-alpha, packingtape-alpha라는 세 가지 코드네임으로 등장했다가 몇 시간 만에 제거됐어요.
개발자 Pieter Levels(@levelsio)가 최초로 이 모델들을 식별하면서 화제가 됐고, 커뮤니티가 캡처한 결과물들이 쏟아져 나왔습니다. 핵심은 두 가지예요:
- 텍스트 렌더링: 이미지 안에 텍스트를 넣으면 또렷하고 정확하게 표시됨
- 세계 지식(World Knowledge): 실제 브랜드, 인터페이스, 사물의 구체적인 모습을 정확히 알고 있음
또 GPT-Image-1에서 유저들을 괴롭히던 노란색 필터(yellow tint)도 사라진 것으로 보입니다.
뭐가 달라지는 건데?
| 비교 항목 | GPT-Image-1.5 (현재) | GPT-Image-2 (유출) |
|---|---|---|
| 아키텍처 | 4o 기반 | 완전히 새로운 독립 아키텍처 |
| 텍스트 렌더링 정확도 | ~95% | 99%+ (예상) |
| 색감 | 노란색 틴트 있음 | 자연색, 노란 필터 제거 |
| 포토리얼리즘 | 높음 | 사진 수준에 근접 |
| 세계 지식 | 양호 | 대폭 강화 (브랜드, UI, 손글씨 등) |
| 종횡비 지원 | 1:1, 3:2, 2:3 | 16:9 와이드스크린 추가 확인 |
기존 AI 이미지 모델의 가장 큰 약점은 세 가지였어요: 텍스트가 깨지고, 손이 이상하고, 실제 사물을 정확히 못 그리는 것. GPT-Image-2는 이 세 가지를 동시에 공략한 것으로 보입니다.
커뮤니티가 실제로 만든 것들
블라인드 테스트 중 생성된 이미지들이 커뮤니티에서 공유됐는데, 사람들은 AI가 만든 이미지를 구분하지 못했습니다.
- IKEA 매장 야경
실제 사진으로 착각할 수준. 간판 폰트, 조명, 입구 사인까지 정확하게 재현됐어요. - YouTube·Windows 인터페이스
스크린샷으로 오인할 정도의 UI 정확도. 버튼 텍스트, 레이아웃이 실제와 일치했습니다. - 의료 손글씨 노트
사람이 직접 쓴 것 같은 필체. 기존 모델에서는 불가능했던 수준이에요. - 시계 바늘 테스트
특정 시간을 지정하면 시계 바늘이 정확한 위치를 가리킴. Nano Banana Pro는 이 테스트에서 실패했습니다. - 만화책 패널
스파이더맨, 배트맨의 코스튬 디테일과 읽을 수 있는 말풍선까지 정확하게 생성.
왜 이게 "진짜" 달라진 걸까?
기존 GPT-Image-1.5가 4o(GPT-4 Omni) 기반이었다면, GPT-Image-2는 완전히 새로운 아키텍처를 쓰고 있다는 분석이 나옵니다. 아키텍처 자체가 바뀌었기 때문에 단순 업그레이드가 아니라 세대 교체에 가깝다는 거예요.
또 하나 중요한 배경: OpenAI가 2026년 3월 24일 Sora를 종료했습니다. 하루 1,500만 달러의 추론 비용을 감당할 수 없었기 때문인데, 이때 확보된 GPU 자원이 GPT-Image-2 학습과 추론에 재배치된 것으로 추정됩니다.
핵심만 정리: 시작하는 법
GPT-Image-2는 아직 공식 출시 전이지만, 일부 ChatGPT 사용자가 이미 A/B 테스트로 접할 수 있다는 보고가 있어요. 지금 바로 할 수 있는 것들을 정리해볼게요.
GPT-Image-2가 적용됐는지 확인하는 법
프롬프트 끝에 "Format 16:9"을 추가해보세요. 16:9 와이드 이미지가 생성되고, 텍스트가 선명하며, 노란 틴트가 없다면 새 모델에 연결된 것입니다.
- 복잡한 이미지 생성 반복 시도
ChatGPT Images에서 텍스트가 많은 포스터, 인포그래픽, UI 스크린샷 등을 5~15회 연속 생성하면 새 모델에 연결될 확률이 높아져요. - 텍스트 렌더링 활용 케이스 준비
제품 목업, 소셜 미디어 카드, 프레젠테이션 슬라이드 등 텍스트 정확도가 중요한 작업을 미리 리스트업하세요. - 경쟁 모델 벤치마크
Nano Banana Pro, Midjourney V7, Ideogram 3.0 등과 같은 프롬프트로 비교 테스트해보면 차이를 체감할 수 있어요. - API 출시에 대비
GPT-Image-1.5 API 기준 고품질 1024x1024 이미지가 $0.133/장. GPT-Image-2는 새 아키텍처 때문에 $0.15~0.20 수준으로 소폭 인상될 가능성이 있어요.
경쟁 구도 한눈에
| 모델 | 핵심 강점 | GPT-Image-2 대비 |
|---|---|---|
| Nano Banana Pro | Google 컴퓨팅, 선점 효과 | 블라인드 테스트에서 GPT-Image-2에 밀린 평가 다수 |
| Midjourney V7 | 예술적 스타일, 커뮤니티 | 포토리얼리즘·텍스트 렌더링에서 열세 |
| FLUX Pro | 오픈소스, 로컬 배포 | 세계 지식·복잡 장면 처리에서 차이 |
| Ideogram 3.0 | 텍스트 렌더링 특화 | 단일 차원이 아닌 종합력에서 GPT-Image-2가 우위 |
LM Arena 블라인드 테스트 방식
LM Arena는 사용자가 모델 이름을 모르는 상태에서 두 결과물을 비교 평가하는 플랫폼이에요. 마케팅 없이 순수 실력으로 Elo 점수가 매겨지기 때문에, 여기서 높은 점수를 받으면 실제 성능이 검증된 셈입니다. OpenAI는 2025년 12월에도 Chestnut, Hazelnut이라는 코드네임으로 테스트를 거친 뒤 GPT-Image-1.5를 출시한 바 있어요.
Sora 종료와 GPU 재배치
Sora는 2026년 3월 종료됐는데, 피크 시 하루 추론 비용만 1,500만 달러였어요. 전체 수명 동안 인앱 매출은 210만 달러에 불과했고요. Sam Altman은 "차세대 자동화 연구원과 엔터프라이즈 애플리케이션에 컴퓨팅을 집중하겠다"고 밝혔는데, GPT-Image-2가 그 수혜자 중 하나로 보입니다.
다국어 텍스트 렌더링
터키어권 유저들이 GPT-Image-2의 비라틴 문자 렌더링 능력을 테스트했는데, 이전 모델보다 훨씬 정확하게 처리했다는 보고가 있어요. 한국어, 아랍어 등에서도 개선이 기대됩니다.





