디자이너한테 "이 배너 헤드라인 'Grand Opening — 3월 25일'로 바꾸고, 배경 톤만 좀 따뜻하게요"라고 카톡을 보냈어요. 답장은 내일 옵니다. 그 사이 마케팅 일정은 또 하루 밀려요. 작은 텍스트 한 줄, 색감 하나 때문에요.

그런데 지금 ChatGPT에 같은 요청을 그대로 던지면, 30초 안에 시안이 나와요. 글씨는 깨지지 않고, "아니 그거 말고 배경만 더 밝게"라고 다시 말하면 나머지는 그대로 둔 채 배경만 바뀝니다. "텍스트가 깨끗하게 들어가는 이미지"와 "말로 고치는 시안 수정" — AI 이미지 도구에서 이 두 개가 풀린 게 마케팅 실무자한테는 진짜 분기점이에요. 그리고 이걸 가장 잘하는 게 GPT-4o의 네이티브 이미지 생성이고요.

이 글로 할 수 있게 되는 것
텍스트 박힌 이미지 정확히 뽑기 말로 시안 반복 수정 용도별 최적 모델 고르기 API로 대량 자동화

왜 "텍스트가 안 깨지는 것"이 그렇게 큰일이었나

AI 이미지 도구를 마케팅에 못 쓴 이유는 화질이 아니었어요. 글씨였어요. 포스터, 배너, 썸네일, 제품 라벨 — 마케팅 에셋의 거의 전부에 텍스트가 들어가는데, 예전 DALL-E 시절엔 "Grand Opening"을 넣으라고 하면 십중팔구 'Grnad Oqening' 같은 외계어가 나왔거든요. 그래서 결국 이미지는 AI로 뽑고 글씨는 포토샵으로 따로 얹는, 반쪽짜리 워크플로우였어요.

이게 풀린 건 단순한 성능 개선이 아니라 구조가 바뀌었기 때문이에요. 기존 ChatGPTGPT-4가 프롬프트를 해석해서 별도의 DALL-E 모델에 넘기고, DALL-E가 그림을 그려 돌려주는 릴레이 방식이었어요. GPT-4o는 하나의 모델이 텍스트도 이해하고 이미지도 직접 만들어요. 언어 모델이 글자를 토큰 단위로 쓰듯, 이미지도 토큰 단위로 자기회귀(autoregressive)로 생성하죠. 모델이 "글자"를 그림이 아니라 글자로 다루니까, 비로소 글씨가 안 깨지는 거예요.

그래서 모델이 "무엇을 그리는지"를 진짜로 이해해요. 대화 맥락, 세계 지식, 직전에 만든 이미지까지 기억하면서 그립니다. "아까 그 포스터에서 배경색만 바꿔줘" 하면 나머지는 유지한 채 배경만 바꿔주는 게 이래서 가능해요.

87%
사진 사실성 평가 (DALL-E 3: 62%)
10~20개
한 장에 정확히 배치 가능한 개별 오브젝트
$0.04~
API 이미지 1장당 시작 단가
$20/월
ChatGPT Plus (무료도 사용 가능)

마케팅 에셋을 뽑을 때 실제로 쓰는 4가지

스펙 말고, 실무에서 손이 가는 기능만 추렸어요.

1/4

정확한 텍스트 렌더링

이미지 안에 "Grand Opening — March 25"를 넣으면 진짜로 깨끗하게 들어가요. 영어는 거의 완벽, 한국어도 (짧으면) 상당히 정확해요. DALL-E 시절의 외계어 텍스트와는 차원이 다릅니다.

2/4

대화형 반복 수정

"로고를 왼쪽 상단으로", "색감을 더 따뜻하게", "텍스트 크기 키워줘" — 포토샵 없이 대화로 디자인을 반복 수정해요. 한 세션 안에서 일관성이 유지됩니다.

3/4

이미지 편집 & 변환

기존 사진을 올려 배경을 바꾸거나, 손그림을 사실적 이미지로 바꾸거나, 사진을 특정 스타일로 변환해요. 업로드 이미지를 "이해"하고 맥락에 맞게 수정합니다.

4/4

복잡한 구도 처리

한 장에 10~20개 오브젝트를 정확한 위치·속성으로 배치해요. 인포그래픽, 다이어그램, 라벨 붙은 제품 사진 같은 복잡한 구도도 됩니다.

그럼 그냥 GPT-4o만 쓰면 되나? — 아니요

여기서 흔히 하는 착각이 "제일 똑똑하니까 다 GPT-4o로"예요. 근데 용도가 다르면 답도 달라요. 같은 OpenAI 안에서도 DALL-E 3와 GPT-4o는 강점이 갈립니다.

DALL-E 3 GPT-4o 네이티브
아키텍처 확산(Diffusion) 모델 자기회귀(Autoregressive) 모델
통합 방식 외부 모델 호출 (릴레이) 네이티브 내장 (옴니모달)
텍스트 렌더링 깨짐·오타 빈번 거의 완벽 (영문 기준)
사진 사실성 62% 87%
반복 수정 매번 새로 생성 대화로 점진적 수정
생성 속도 20~45초 60~180초
최대 오브젝트 ~5개 10~20개
맥락 이해 프롬프트만 참조 대화 전체 + 업로드 이미지
API 모델명 dall-e-3 gpt-image-1
API 이미지 가격 $0.04~$0.08/장 $0.04~$0.17/장 (품질별)

속도는 DALL-E가 빠르지만, 그 외 거의 모든 면에서 GPT-4o가 압도해요. OpenAI도 "훨씬 느리지만, 믿을 수 없을 만큼 좋다. 기다릴 가치가 충분하다"고 했고, 결국 2025년 3월 ChatGPT의 기본 이미지 생성 모델이 DALL-E 3에서 GPT-4o로 교체됐어요.

그리고 OpenAI 바깥까지 넓히면 선택지는 더 갈라져요. 용도별로 "이건 이걸로"가 분명합니다.

모델 회사 텍스트 렌더링 핵심 강점 가격대
GPT-4o (gpt-image-1) OpenAI 최상 대화형 수정, 맥락 이해 $20/월 또는 API
Midjourney v7 Midjourney 보통 예술적 스타일, 미학 $10~$30/월
나노 바나나 2 Google 매우 우수 속도(4~6초), 다국어 무료~$0.067/장
FLUX 2 Max Black Forest Labs 우수 제품 사진, 오픈소스 $0.05/장
Ideogram 3 Ideogram 매우 우수 (~90%) 그래픽 디자인, 타이포 무료~$7/월

마케팅 팀이라면 이렇게 쓰세요 (용도 → 모델)

소셜 미디어 크리에이티브 → GPT-4o (텍스트 포함 에셋을 대화로 빠르게 변형)
브랜드 캠페인 비주얼 → Midjourney (예술적 완성도)
대량 배너·썸네일 → 나노 바나나 2 (속도 + 가격)
제품 목업·패키지 → FLUX 2 Max (사실적 제품 사진)
로고·타이포 중심 디자인 → Ideogram 3 (텍스트 특화)

핵심은 하나예요. GPT-4o가 마케팅 워크플로우를 바꾸는 진짜 이유는 화질이 아니라 "반복 수정의 비용이 0에 수렴한다"는 거예요. 예전엔 "여기 텍스트 바꿔주세요, 색감 조정해주세요" 한 번에 사람·시간·비용이 들었어요. 이제는 "배경을 파란색으로, 헤드라인 폰트 키워줘"라고 말하면 30초 안에 새 시안이 나와요.

오늘 바로 따라 하는 5단계

  1. ChatGPT에서 바로 시작하기
    chatgpt.com에 접속해 이미지를 요청하면 GPT-4o가 기본 생성 모델로 작동해요. 무료 사용자도 가능(속도 제한 있음). Plus($20/월)면 더 빠르게, 더 많이.
  2. 텍스트를 포함한 이미지 만들기
    "'Grand Opening — 3월 25일' 텍스트가 들어간 카페 오픈 포스터, 미니멀 디자인"처럼 넣을 글자를 명시하세요. 따옴표로 감싸면 정확도가 올라가고, 한국어는 짧을수록 정확해요.
  3. 대화로 반복 수정하기
    마음에 안 들면 새로 만들지 말고 "배경 좀 더 밝게", "로고 오른쪽으로", "전체적으로 따뜻한 톤" 식으로 자연어로 고쳐요. 이전 맥락을 기억해 일관성이 유지됩니다.
  4. 기존 이미지 편집하기
    이미지를 업로드하고 "이 사진 배경 바꿔줘", "이 제품 사진 화이트 배경으로", "이 손그림 사실적으로"처럼 요청하면 올린 이미지를 기반으로 편집해요.
  5. API로 자동화하기 (개발자)
    모델명 gpt-image-1로 자동화 가능. 표준 품질 $0.04~$0.05/장, HD $0.08~$0.12/장. 마케팅 에셋 대량 생산, 동적 썸네일 생성에 적합해요.

쓰기 전에 알아둘 한계 3가지

① 느려요. DALL-E보다 2~4배, 한 장에 60~180초 걸릴 수 있어요. 대량 작업이면 속도형(나노 바나나 등)을 병행하세요.
② 비라틴 문자는 아직. 한국어·일본어·아랍어 텍스트는 부정확하거나 환각된 글자가 나올 수 있어요. 긴 한글은 직접 얹는 게 안전합니다.
③ 워터마크가 박혀요. 생성된 모든 이미지에 C2PA 메타데이터가 삽입돼 AI 생성 여부가 추적돼요. 상업용으로 쓸 때 인지하세요.