디자이너한테 "이 배너 헤드라인 'Grand Opening — 3월 25일'로 바꾸고, 배경 톤만 좀 따뜻하게요"라고 카톡을 보냈어요. 답장은 내일 옵니다. 그 사이 마케팅 일정은 또 하루 밀려요. 작은 텍스트 한 줄, 색감 하나 때문에요.
그런데 지금 ChatGPT에 같은 요청을 그대로 던지면, 30초 안에 시안이 나와요. 글씨는 깨지지 않고, "아니 그거 말고 배경만 더 밝게"라고 다시 말하면 나머지는 그대로 둔 채 배경만 바뀝니다. "텍스트가 깨끗하게 들어가는 이미지"와 "말로 고치는 시안 수정" — AI 이미지 도구에서 이 두 개가 풀린 게 마케팅 실무자한테는 진짜 분기점이에요. 그리고 이걸 가장 잘하는 게 GPT-4o의 네이티브 이미지 생성이고요.
왜 "텍스트가 안 깨지는 것"이 그렇게 큰일이었나
AI 이미지 도구를 마케팅에 못 쓴 이유는 화질이 아니었어요. 글씨였어요. 포스터, 배너, 썸네일, 제품 라벨 — 마케팅 에셋의 거의 전부에 텍스트가 들어가는데, 예전 DALL-E 시절엔 "Grand Opening"을 넣으라고 하면 십중팔구 'Grnad Oqening' 같은 외계어가 나왔거든요. 그래서 결국 이미지는 AI로 뽑고 글씨는 포토샵으로 따로 얹는, 반쪽짜리 워크플로우였어요.
이게 풀린 건 단순한 성능 개선이 아니라 구조가 바뀌었기 때문이에요. 기존 ChatGPT는 GPT-4가 프롬프트를 해석해서 별도의 DALL-E 모델에 넘기고, DALL-E가 그림을 그려 돌려주는 릴레이 방식이었어요. GPT-4o는 하나의 모델이 텍스트도 이해하고 이미지도 직접 만들어요. 언어 모델이 글자를 토큰 단위로 쓰듯, 이미지도 토큰 단위로 자기회귀(autoregressive)로 생성하죠. 모델이 "글자"를 그림이 아니라 글자로 다루니까, 비로소 글씨가 안 깨지는 거예요.
그래서 모델이 "무엇을 그리는지"를 진짜로 이해해요. 대화 맥락, 세계 지식, 직전에 만든 이미지까지 기억하면서 그립니다. "아까 그 포스터에서 배경색만 바꿔줘" 하면 나머지는 유지한 채 배경만 바꿔주는 게 이래서 가능해요.
마케팅 에셋을 뽑을 때 실제로 쓰는 4가지
스펙 말고, 실무에서 손이 가는 기능만 추렸어요.
그럼 그냥 GPT-4o만 쓰면 되나? — 아니요
여기서 흔히 하는 착각이 "제일 똑똑하니까 다 GPT-4o로"예요. 근데 용도가 다르면 답도 달라요. 같은 OpenAI 안에서도 DALL-E 3와 GPT-4o는 강점이 갈립니다.
| DALL-E 3 | GPT-4o 네이티브 | |
|---|---|---|
| 아키텍처 | 확산(Diffusion) 모델 | 자기회귀(Autoregressive) 모델 |
| 통합 방식 | 외부 모델 호출 (릴레이) | 네이티브 내장 (옴니모달) |
| 텍스트 렌더링 | 깨짐·오타 빈번 | 거의 완벽 (영문 기준) |
| 사진 사실성 | 62% | 87% |
| 반복 수정 | 매번 새로 생성 | 대화로 점진적 수정 |
| 생성 속도 | 20~45초 | 60~180초 |
| 최대 오브젝트 | ~5개 | 10~20개 |
| 맥락 이해 | 프롬프트만 참조 | 대화 전체 + 업로드 이미지 |
| API 모델명 | dall-e-3 | gpt-image-1 |
| API 이미지 가격 | $0.04~$0.08/장 | $0.04~$0.17/장 (품질별) |
속도는 DALL-E가 빠르지만, 그 외 거의 모든 면에서 GPT-4o가 압도해요. OpenAI도 "훨씬 느리지만, 믿을 수 없을 만큼 좋다. 기다릴 가치가 충분하다"고 했고, 결국 2025년 3월 ChatGPT의 기본 이미지 생성 모델이 DALL-E 3에서 GPT-4o로 교체됐어요.
그리고 OpenAI 바깥까지 넓히면 선택지는 더 갈라져요. 용도별로 "이건 이걸로"가 분명합니다.
| 모델 | 회사 | 텍스트 렌더링 | 핵심 강점 | 가격대 |
|---|---|---|---|---|
| GPT-4o (gpt-image-1) | OpenAI | 최상 | 대화형 수정, 맥락 이해 | $20/월 또는 API |
| Midjourney v7 | Midjourney | 보통 | 예술적 스타일, 미학 | $10~$30/월 |
| 나노 바나나 2 | 매우 우수 | 속도(4~6초), 다국어 | 무료~$0.067/장 | |
| FLUX 2 Max | Black Forest Labs | 우수 | 제품 사진, 오픈소스 | $0.05/장 |
| Ideogram 3 | Ideogram | 매우 우수 (~90%) | 그래픽 디자인, 타이포 | 무료~$7/월 |
마케팅 팀이라면 이렇게 쓰세요 (용도 → 모델)
소셜 미디어 크리에이티브 → GPT-4o (텍스트 포함 에셋을 대화로 빠르게 변형)
브랜드 캠페인 비주얼 → Midjourney (예술적 완성도)
대량 배너·썸네일 → 나노 바나나 2 (속도 + 가격)
제품 목업·패키지 → FLUX 2 Max (사실적 제품 사진)
로고·타이포 중심 디자인 → Ideogram 3 (텍스트 특화)
핵심은 하나예요. GPT-4o가 마케팅 워크플로우를 바꾸는 진짜 이유는 화질이 아니라 "반복 수정의 비용이 0에 수렴한다"는 거예요. 예전엔 "여기 텍스트 바꿔주세요, 색감 조정해주세요" 한 번에 사람·시간·비용이 들었어요. 이제는 "배경을 파란색으로, 헤드라인 폰트 키워줘"라고 말하면 30초 안에 새 시안이 나와요.
오늘 바로 따라 하는 5단계
- ChatGPT에서 바로 시작하기
chatgpt.com에 접속해 이미지를 요청하면 GPT-4o가 기본 생성 모델로 작동해요. 무료 사용자도 가능(속도 제한 있음). Plus($20/월)면 더 빠르게, 더 많이. - 텍스트를 포함한 이미지 만들기
"'Grand Opening — 3월 25일' 텍스트가 들어간 카페 오픈 포스터, 미니멀 디자인"처럼 넣을 글자를 명시하세요. 따옴표로 감싸면 정확도가 올라가고, 한국어는 짧을수록 정확해요. - 대화로 반복 수정하기
마음에 안 들면 새로 만들지 말고 "배경 좀 더 밝게", "로고 오른쪽으로", "전체적으로 따뜻한 톤" 식으로 자연어로 고쳐요. 이전 맥락을 기억해 일관성이 유지됩니다. - 기존 이미지 편집하기
이미지를 업로드하고 "이 사진 배경 바꿔줘", "이 제품 사진 화이트 배경으로", "이 손그림 사실적으로"처럼 요청하면 올린 이미지를 기반으로 편집해요. - API로 자동화하기 (개발자)
모델명gpt-image-1로 자동화 가능. 표준 품질 $0.04~$0.05/장, HD $0.08~$0.12/장. 마케팅 에셋 대량 생산, 동적 썸네일 생성에 적합해요.
쓰기 전에 알아둘 한계 3가지
① 느려요. DALL-E보다 2~4배, 한 장에 60~180초 걸릴 수 있어요. 대량 작업이면 속도형(나노 바나나 등)을 병행하세요.
② 비라틴 문자는 아직. 한국어·일본어·아랍어 텍스트는 부정확하거나 환각된 글자가 나올 수 있어요. 긴 한글은 직접 얹는 게 안전합니다.
③ 워터마크가 박혀요. 생성된 모든 이미지에 C2PA 메타데이터가 삽입돼 AI 생성 여부가 추적돼요. 상업용으로 쓸 때 인지하세요.





