OpenAI 的下一代图像模型还没正式发布,就提前进入了公众视野。GPT-Image-2 其实是在 LM Arena 上以三个代号做测试时被社区发现的。业界多年吐槽的「AI 画不好文字」这块顽疾,这次可能真的被解决了。

这是什么?

GPT-Image-2 是 OpenAI 正在筹备的下一代图像生成模型。虽然还没正式公告,但在 2026 年 4 月初,它以 maskingtape-alphagaffertape-alphapackingtape-alpha 三个代号出现在 LM Arena(AI 模型盲测平台)上,几个小时后就被撤下。

开发者 Pieter Levels(@levelsio)最早识别出这几个模型,引爆了讨论,社区随后放出大量截取的生成结果。关键点有两个:

  • 文字渲染(Text Rendering):图片里插入的文字清晰、准确
  • 世界知识(World Knowledge):对真实品牌、界面、物体的具体样貌有准确认知

此外,GPT-Image-1 里让用户头疼的黄色滤镜(yellow tint)似乎也消失了。

有什么不同?

对比维度GPT-Image-1.5(现行)GPT-Image-2(泄露)
架构基于 4o全新独立架构
文字渲染准确率~95%99%+(预估)
色彩有黄色色偏自然色,黄滤镜消失
照片级真实感较高接近真实照片水准
世界知识尚可大幅强化(品牌、UI、手写字等)
宽高比支持1:1、3:2、2:3新增 16:9 宽屏

过去 AI 图像模型最明显的三大短板:文字乱码手部畸形真实物体画不准。GPT-Image-2 看起来是一次性同时啃下了这三块硬骨头。

社区实际做出来的东西

盲测期间生成的图片在社区传开,很多人根本分辨不出来这是 AI 画的。

  1. 宜家(IKEA)门店夜景
    几乎可以当真实照片看。招牌字体、灯光、入口标识都还原得很准确。
  2. YouTube、Windows 界面
    精细到会被当成截图。按钮文字、布局都和实物一致。
  3. 医生手写病历笔记
    笔迹真像人写的,这是以前的模型完全做不到的水准。
  4. 时钟指针测试
    指定具体时间后,时钟指针能准确指向对应位置。Nano Banana Pro 在这项测试中翻了车。
  5. 漫画分镜
    能准确画出蜘蛛侠、蝙蝠侠的服装细节,连对话气泡里的文字都清晰可读。

为什么这次是「真的」不一样?

GPT-Image-1.5 基于 4o(GPT-4 Omni),而分析人士普遍认为 GPT-Image-2 用的是全新的架构。架构本身换了,所以这并不是简单升级,更接近一次世代更替。

还有一个重要背景:OpenAI 在 2026 年 3 月 24 日下线了 Sora。原因是每天 1500 万美元的推理成本撑不住,而省下来的 GPU 资源被推测重新分配给了 GPT-Image-2 的训练与推理。

上手指南

GPT-Image-2 虽然还没正式上线,但有报告说部分 ChatGPT 用户已经在 A/B 测试里接触到了。下面整理你现在就能做的事。

判断是否接入 GPT-Image-2 的方法
在 prompt 末尾加上 "Format 16:9"。如果生成的是 16:9 宽屏图,文字清晰,且没有黄色色偏,那大概率就是接入了新模型。

  1. 反复尝试生成复杂图像
    在 ChatGPT Images 里连续 5~15 次生成文字多的海报、信息图、UI 截图等,能提升被分配到新模型的概率。
  2. 准备能发挥文字渲染优势的用例
    提前梳理产品样机、社交媒体卡片、演示幻灯片等对文字精度要求高的任务。
  3. 和竞品做横评
    用同一个 prompt 去跑 Nano Banana Pro、Midjourney V7、Ideogram 3.0 等模型,差距很容易被肉眼感知到。
  4. 为 API 上线做准备
    GPT-Image-1.5 API 目前高质量 1024x1024 每张 $0.133。GPT-Image-2 因为换了新架构,价格可能小幅上涨到 $0.15~0.20 区间。

竞争格局一眼看懂

模型核心优势对比 GPT-Image-2
Nano Banana ProGoogle 算力、先发效应盲测中多次被 GPT-Image-2 压制
Midjourney V7艺术风格、社区氛围在照片真实感与文字渲染上处于下风
FLUX Pro开源、可本地部署世界知识和复杂场景处理有差距
Ideogram 3.0专精文字渲染单一维度不敌 GPT-Image-2 的综合能力

深入了解

LM Arena 的盲测机制

LM Arena 让用户在不知道模型名字的情况下对比两组输出。没有营销干扰,纯靠实力拿 Elo 分,所以在这里拿到高分,等于实战能力过了检验。OpenAI 在 2025 年 12 月也是用 Chestnut、Hazelnut 这两个代号做完盲测之后,才正式推出了 GPT-Image-1.5。

Sora 下线与 GPU 重新调配

Sora 在 2026 年 3 月退役,高峰期每天的推理成本高达 1500 万美元,而它整个生命周期内的应用内收入才 210 万美元。Sam Altman 表示公司要「把算力集中在下一代自动化研究员和企业级应用上」,GPT-Image-2 看起来就是其中的受益者之一。

多语言文字渲染

土耳其语圈的用户测试了 GPT-Image-2 处理非拉丁字符的能力,反馈比之前的模型准确度明显更高。对韩语、阿拉伯语等语言的改进也值得期待。