OpenAI 的下一代图像模型还没正式发布,就提前进入了公众视野。GPT-Image-2 其实是在 LM Arena 上以三个代号做测试时被社区发现的。业界多年吐槽的「AI 画不好文字」这块顽疾,这次可能真的被解决了。
这是什么?
GPT-Image-2 是 OpenAI 正在筹备的下一代图像生成模型。虽然还没正式公告,但在 2026 年 4 月初,它以 maskingtape-alpha、gaffertape-alpha、packingtape-alpha 三个代号出现在 LM Arena(AI 模型盲测平台)上,几个小时后就被撤下。
开发者 Pieter Levels(@levelsio)最早识别出这几个模型,引爆了讨论,社区随后放出大量截取的生成结果。关键点有两个:
- 文字渲染(Text Rendering):图片里插入的文字清晰、准确
- 世界知识(World Knowledge):对真实品牌、界面、物体的具体样貌有准确认知
此外,GPT-Image-1 里让用户头疼的黄色滤镜(yellow tint)似乎也消失了。
有什么不同?
| 对比维度 | GPT-Image-1.5(现行) | GPT-Image-2(泄露) |
|---|---|---|
| 架构 | 基于 4o | 全新独立架构 |
| 文字渲染准确率 | ~95% | 99%+(预估) |
| 色彩 | 有黄色色偏 | 自然色,黄滤镜消失 |
| 照片级真实感 | 较高 | 接近真实照片水准 |
| 世界知识 | 尚可 | 大幅强化(品牌、UI、手写字等) |
| 宽高比支持 | 1:1、3:2、2:3 | 新增 16:9 宽屏 |
过去 AI 图像模型最明显的三大短板:文字乱码、手部畸形、真实物体画不准。GPT-Image-2 看起来是一次性同时啃下了这三块硬骨头。
社区实际做出来的东西
盲测期间生成的图片在社区传开,很多人根本分辨不出来这是 AI 画的。
- 宜家(IKEA)门店夜景
几乎可以当真实照片看。招牌字体、灯光、入口标识都还原得很准确。 - YouTube、Windows 界面
精细到会被当成截图。按钮文字、布局都和实物一致。 - 医生手写病历笔记
笔迹真像人写的,这是以前的模型完全做不到的水准。 - 时钟指针测试
指定具体时间后,时钟指针能准确指向对应位置。Nano Banana Pro 在这项测试中翻了车。 - 漫画分镜
能准确画出蜘蛛侠、蝙蝠侠的服装细节,连对话气泡里的文字都清晰可读。
为什么这次是「真的」不一样?
GPT-Image-1.5 基于 4o(GPT-4 Omni),而分析人士普遍认为 GPT-Image-2 用的是全新的架构。架构本身换了,所以这并不是简单升级,更接近一次世代更替。
还有一个重要背景:OpenAI 在 2026 年 3 月 24 日下线了 Sora。原因是每天 1500 万美元的推理成本撑不住,而省下来的 GPU 资源被推测重新分配给了 GPT-Image-2 的训练与推理。
上手指南
GPT-Image-2 虽然还没正式上线,但有报告说部分 ChatGPT 用户已经在 A/B 测试里接触到了。下面整理你现在就能做的事。
判断是否接入 GPT-Image-2 的方法
在 prompt 末尾加上 "Format 16:9"。如果生成的是 16:9 宽屏图,文字清晰,且没有黄色色偏,那大概率就是接入了新模型。
- 反复尝试生成复杂图像
在 ChatGPT Images 里连续 5~15 次生成文字多的海报、信息图、UI 截图等,能提升被分配到新模型的概率。 - 准备能发挥文字渲染优势的用例
提前梳理产品样机、社交媒体卡片、演示幻灯片等对文字精度要求高的任务。 - 和竞品做横评
用同一个 prompt 去跑 Nano Banana Pro、Midjourney V7、Ideogram 3.0 等模型,差距很容易被肉眼感知到。 - 为 API 上线做准备
GPT-Image-1.5 API 目前高质量 1024x1024 每张 $0.133。GPT-Image-2 因为换了新架构,价格可能小幅上涨到 $0.15~0.20 区间。
竞争格局一眼看懂
| 模型 | 核心优势 | 对比 GPT-Image-2 |
|---|---|---|
| Nano Banana Pro | Google 算力、先发效应 | 盲测中多次被 GPT-Image-2 压制 |
| Midjourney V7 | 艺术风格、社区氛围 | 在照片真实感与文字渲染上处于下风 |
| FLUX Pro | 开源、可本地部署 | 世界知识和复杂场景处理有差距 |
| Ideogram 3.0 | 专精文字渲染 | 单一维度不敌 GPT-Image-2 的综合能力 |
深入了解
LM Arena 的盲测机制
LM Arena 让用户在不知道模型名字的情况下对比两组输出。没有营销干扰,纯靠实力拿 Elo 分,所以在这里拿到高分,等于实战能力过了检验。OpenAI 在 2025 年 12 月也是用 Chestnut、Hazelnut 这两个代号做完盲测之后,才正式推出了 GPT-Image-1.5。
Sora 下线与 GPU 重新调配
Sora 在 2026 年 3 月退役,高峰期每天的推理成本高达 1500 万美元,而它整个生命周期内的应用内收入才 210 万美元。Sam Altman 表示公司要「把算力集中在下一代自动化研究员和企业级应用上」,GPT-Image-2 看起来就是其中的受益者之一。
多语言文字渲染
土耳其语圈的用户测试了 GPT-Image-2 处理非拉丁字符的能力,反馈比之前的模型准确度明显更高。对韩语、阿拉伯语等语言的改进也值得期待。



