ChatGPT里说「在这张海报上加上Grand Opening」,文字真的清晰地出现了,没有错别字。这在以前是不可能的。DALL-E时代往往出来的是乱码。2025年3月,OpenAI在GPT-4o中原生嵌入图像生成功能,改变了一切。发布1小时内涌入100万用户,吉卜力风格的图片席卷了互联网。

TL;DR
DALL-E外部调用 → GPT-4o原生集成 文本渲染革新 对话式反复修改 营销素材工作流变革

What Is It?

过去ChatGPT的图像生成是这样的:用户输入提示词,GPT-4解释文本后传递给独立的DALL-E模型,DALL-E生成图像再返回。两个模型接力传递。

GPT-4o的原生图像生成完全不同。一个模型既理解文本,又直接生成图像。 就像语言模型逐token生成文本一样,图像也以token为单位用自回归(autoregressive)方式生成。 这与DALL-E的扩散(diffusion)方式在架构上根本不同。

100万
发布1小时内涌入的新用户
8~10亿
3周内ChatGPT用户数
87%
照片真实感评分(DALL-E 3: 62%)
20个
单张图像可处理的独立对象数

为什么重要?因为模型真正理解「画什么」。DALL-E用模式匹配处理提示词,而GPT-4o在记忆对话上下文、世界知识和之前图像的同时生成图像。 说「把刚才那张海报的背景色换掉」,它会保持其他部分不变只改背景。

这使得以下事情成为可能:

1/4

精准的文本渲染

在图像中插入「Grand Opening — March 25」,文字真的清晰呈现。英文几近完美,中文也相当准确。与DALL-E时代的乱码文字截然不同。

2/4

对话式反复修改

「把logo移到左上角」「色调再暖一点」「把标题字体放大」——不需要Photoshop,用对话就能反复修改设计。在同一会话内保持一致性。

3/4

图像编辑与转换

上传现有照片换背景、把手绘转为真实图像、把照片改成吉卜力风格都可以。它「理解」上传图像并结合上下文进行修改。

4/4

复杂构图处理

可以在一张图像中以精确的位置和属性排列10〜20个独立对象。 信息图、图表、带标签的产品图等复杂构图都能处理。

What Changes?

直接对比DALL-E 3和GPT-4o原生图像生成。同属OpenAI,方法却截然不同。

DALL-E 3GPT-4o 原生
架构扩散(Diffusion)模型自回归(Autoregressive)模型
集成方式外部模型调用(接力)原生内置(多模态)
文本渲染乱码·错字频繁几近完美(英文标准)
照片真实感62%87%
反复修改每次重新生成用对话逐步修改
生成速度20~45秒60~180秒
最大对象数~5个10~20个
上下文理解仅参考提示词全部对话 + 上传图像
API模型名dall-e-3gpt-image-1
API图像价格$0.04~$0.08/张$0.04~$0.17/张(按质量)

速度上DALL-E更快,但其他几乎所有方面GPT-4o都碾压。 OpenAI也承认这一点,表示「慢得多,但好到不可思议,等待完全值得。」 最终2025年3月,ChatGPT默认图像生成模型从DALL-E 3切换到了GPT-4o。

再与其他AI图像生成工具对比:

模型公司文本渲染核心优势价格
GPT-4o (gpt-image-1)OpenAI最佳对话式修改、上下文理解$20/月或API
Midjourney v7Midjourney一般艺术风格、美学$10~$30/月
Imagen 3Google非常优秀速度(4~6秒)、多语言免费~$0.067/张
FLUX 2 MaxBlack Forest Labs优秀产品照片、开源$0.05/张
Ideogram 3Ideogram非常优秀(~90%)图形设计、字体免费~$7/月

Key Takeaway

社交媒体创意素材 → GPT-4o(含文字的素材可用对话快速变形)
品牌活动视觉 → Midjourney(艺术完成度)
批量横幅和缩略图 → Imagen 3(速度+价格)
产品样机和包装 → FLUX 2 Max(真实产品照片)
以logo和字体为主的设计 → Ideogram 3(文字特化)

GPT-4o图像生成改变营销工作流的核心在于「反复修改的成本趋近于零」。以前让设计师改这里的文字、调整色调,每次都需要时间和费用。现在在ChatGPT里说「背景改成蓝色,把标题字体放大」,30秒内就出新方案。

Heads Up

GPT-4o图像生成比DALL-E慢2~4倍。一张图片可能需要60~180秒。 非拉丁字符(中文、日文、阿拉伯文等)的文本渲染还不完美,可能出现不准确或幻觉文字。 此外所有生成图像都嵌入了C2PA元数据,可追踪AI生成情况。 商用时请注意这一点。

Getting Started

  1. 直接在ChatGPT开始
    访问chatgpt.com,请求生成图像,GPT-4o就是默认生成模型。免费用户也可使用(有速度限制)。Plus订阅($20/月)可更快、更多地生成。
  2. 制作含文字的图像
    像这样明确指定文字:「包含Grand Opening — 3月25日文字的咖啡店开业海报,简约设计」。用引号括起来可以提高精度。中文文字越短越准确。
  3. 用对话反复修改
    如果第一次结果不满意,用「背景再亮一点」「logo移到右边」「整体用暖色调」这样的自然语言提修改请求。它记得之前的上下文,所以能保持一致性。
  4. 编辑现有图像
    上传图像后说「换掉这张照片的背景」「把这张产品图换成白色背景」「把这张手绘变成真实风格」,它会基于上传图像进行编辑。
  5. 通过API自动化(开发者)
    在OpenAI API中用模型名gpt-image-1可以自动化图像生成。标准质量每张$0.04~$0.05,HD质量$0.08~$0.12。适合批量生成营销素材或动态缩略图。