GPT-Image-2로 생성된 이미지 예시 — ChatGPT에서 테스트된 차세대 이미지 모델 결과물

storage.ghost.io

GPT-Image-2 意外泄露 — OpenAI 新一代图像模型在文字渲染与世界知识上的跨越

GPT-Image-2泄露、LM Arena代号、文字渲染、世界知识、Nano Banana Pro对比商业

Pieter Levels의 GPT-Image-2 유출 최초 공유 트윗

GPT-Image-2 LMArena 유출 상세 분석 및 프롬프트 가이드

OpenAI Image V2 ChatGPT 및 LM Arena 테스트 현황

OpenAI 的下一代图像模型还没正式发布,就提前进入了公众视野。GPT-Image-2 其实是在 LM Arena 上以三个代号做测试时被社区发现的。业界多年吐槽的「AI 画不好文字」这块顽疾,这次可能真的被解决了。

这是什么?

GPT-Image-2 是 OpenAI 正在筹备的下一代图像生成模型。虽然还没正式公告,但在 2026 年 4 月初,它以 maskingtape-alpha、gaffertape-alpha、packingtape-alpha 三个代号出现在 LM Arena(AI 模型盲测平台)上,几个小时后就被撤下。

开发者 Pieter Levels(@levelsio)最早识别出这几个模型,引爆了讨论,社区随后放出大量截取的生成结果。关键点有两个:

文字渲染(Text Rendering):图片里插入的文字清晰、准确
世界知识(World Knowledge):对真实品牌、界面、物体的具体样貌有准确认知

此外,GPT-Image-1 里让用户头疼的黄色滤镜(yellow tint)似乎也消失了。

有什么不同?

对比维度	GPT-Image-1.5(现行)	GPT-Image-2(泄露)
架构	基于 4o	全新独立架构
文字渲染准确率	~95%	99%+(预估)
色彩	有黄色色偏	自然色,黄滤镜消失
照片级真实感	较高	接近真实照片水准
世界知识	尚可	大幅强化(品牌、UI、手写字等)
宽高比支持	1:1、3:2、2:3	新增 16:9 宽屏

过去 AI 图像模型最明显的三大短板:文字乱码、手部畸形、真实物体画不准。GPT-Image-2 看起来是一次性同时啃下了这三块硬骨头。

社区实际做出来的东西

盲测期间生成的图片在社区传开,很多人根本分辨不出来这是 AI 画的。

宜家(IKEA)门店夜景
几乎可以当真实照片看。招牌字体、灯光、入口标识都还原得很准确。
YouTube、Windows 界面
精细到会被当成截图。按钮文字、布局都和实物一致。
医生手写病历笔记
笔迹真像人写的,这是以前的模型完全做不到的水准。
时钟指针测试
指定具体时间后,时钟指针能准确指向对应位置。Nano Banana Pro 在这项测试中翻了车。
漫画分镜
能准确画出蜘蛛侠、蝙蝠侠的服装细节,连对话气泡里的文字都清晰可读。

为什么这次是「真的」不一样?

GPT-Image-1.5 基于 4o(GPT-4 Omni),而分析人士普遍认为 GPT-Image-2 用的是全新的架构。架构本身换了,所以这并不是简单升级,更接近一次世代更替。

还有一个重要背景:OpenAI 在 2026 年 3 月 24 日下线了 Sora。原因是每天 1500 万美元的推理成本撑不住,而省下来的 GPU 资源被推测重新分配给了 GPT-Image-2 的训练与推理。

上手指南

GPT-Image-2 虽然还没正式上线,但有报告说部分 ChatGPT 用户已经在 A/B 测试里接触到了。下面整理你现在就能做的事。

判断是否接入 GPT-Image-2 的方法
在 prompt 末尾加上 "Format 16:9"。如果生成的是 16:9 宽屏图,文字清晰,且没有黄色色偏,那大概率就是接入了新模型。

反复尝试生成复杂图像
在 ChatGPT Images 里连续 5~15 次生成文字多的海报、信息图、UI 截图等,能提升被分配到新模型的概率。
准备能发挥文字渲染优势的用例
提前梳理产品样机、社交媒体卡片、演示幻灯片等对文字精度要求高的任务。
和竞品做横评
用同一个 prompt 去跑 Nano Banana Pro、Midjourney V7、Ideogram 3.0 等模型,差距很容易被肉眼感知到。
为 API 上线做准备
GPT-Image-1.5 API 目前高质量 1024x1024 每张 $0.133。GPT-Image-2 因为换了新架构,价格可能小幅上涨到 $0.15~0.20 区间。

竞争格局一眼看懂

模型	核心优势	对比 GPT-Image-2
Nano Banana Pro	Google 算力、先发效应	盲测中多次被 GPT-Image-2 压制
Midjourney V7	艺术风格、社区氛围	在照片真实感与文字渲染上处于下风
FLUX Pro	开源、可本地部署	世界知识和复杂场景处理有差距
Ideogram 3.0	专精文字渲染	单一维度不敌 GPT-Image-2 的综合能力