OpenAIの次世代画像モデルが、公式発表前に世に出てしまいました。GPT-Image-2がLM Arenaで3つのコードネームでテストされているところをコミュニティに発見されたんです。「画像AIはテキストが書けない」という長年の弱点が、今回ついに本当に解消されたかもしれません。

これは何?

GPT-Image-2はOpenAIが準備中の次世代画像生成モデルです。まだ公式発表前ですが、2026年4月初旬にLM Arena(AIモデルのブラインドテストプラットフォーム)でmaskingtape-alphagaffertape-alphapackingtape-alphaという3つのコードネームで登場し、数時間後に削除されました。

開発者のPieter Levels(@levelsio)が最初にこれらのモデルを特定したことで話題になり、コミュニティがキャプチャした結果が次々と公開されました。ポイントは2つです:

  • テキストレンダリング:画像内にテキストを入れると、くっきりと正確に表示される
  • 世界知識(World Knowledge):実際のブランド、インターフェース、物の具体的な見た目を正確に把握している

また、GPT-Image-1でユーザーを悩ませていた黄色フィルター(yellow tint)も消えたようです。

何が変わるのか?

比較項目GPT-Image-1.5(現在)GPT-Image-2(流出)
アーキテクチャ4oベース完全に新しい独立アーキテクチャ
テキストレンダリング精度〜95%99%以上(予想)
色合い黄色いティントあり自然な色、黄色フィルター除去
フォトリアリズム高い写真レベルに近い
世界知識良好大幅強化(ブランド、UI、手書きなど)
アスペクト比サポート1:1、3:2、2:316:9ワイドスクリーン追加を確認

従来のAI画像モデルの最大の弱点は3つでした:テキストが崩れ手がおかしく実際の物を正確に描けないこと。GPT-Image-2はこの3つを同時に攻略したように見えます。

コミュニティが実際に作ったもの

ブラインドテスト中に生成された画像がコミュニティで共有されましたが、人々はAIが作った画像を見分けられませんでした。

  1. IKEAの店舗の夜景
    実際の写真と見間違えるレベル。看板のフォント、照明、入口のサインまで正確に再現されました。
  2. YouTube・WindowsのUI
    スクリーンショットと勘違いするほどのUI精度。ボタンのテキスト、レイアウトが実際と一致しました。
  3. 医療手書きノート
    人が直接書いたような筆跡。従来のモデルでは不可能だったレベルです。
  4. 時計の針テスト
    特定の時刻を指定すると、時計の針が正確な位置を指します。Nano Banana Proはこのテストで失敗しました。
  5. マンガのコマ割り
    スパイダーマン、バットマンのコスチュームの細部と読めるセリフバルーンまで正確に生成。

なぜこれが「本当に」変わったのか?

既存のGPT-Image-1.5が4o(GPT-4 Omni)ベースだったのに対し、GPT-Image-2は完全に新しいアーキテクチャを採用しているという分析が出ています。アーキテクチャ自体が変わったため、単なるアップグレードではなく世代交代に近いというわけです。

もう一つ重要な背景:OpenAIが2026年3月24日にSoraを終了しました。1日1,500万ドルの推論コストを賄えなかったためで、このとき確保されたGPUリソースがGPT-Image-2の学習と推論に再配置されたと推定されます。

始め方のポイント

GPT-Image-2はまだ公式リリース前ですが、一部のChatGPTユーザーがすでにA/Bテストとして触れているという報告があります。今すぐできることをまとめてみます。

GPT-Image-2が適用されているか確認する方法
プロンプトの最後に「Format 16:9」を追加してみてください。16:9のワイド画像が生成され、テキストが鮮明で、黄色いティントがなければ新しいモデルに接続されています。

  1. 複雑な画像を繰り返し生成する
    ChatGPT Imagesでテキストが多いポスター、インフォグラフィック、UIスクリーンショットなどを5〜15回連続で生成すると、新しいモデルに接続される確率が上がります。
  2. テキストレンダリング活用ケースの準備
    製品モックアップ、ソーシャルメディアカード、プレゼンテーションスライドなど、テキスト精度が重要な作業をあらかじめリストアップしておきましょう。
  3. 競合モデルとのベンチマーク
    Nano Banana Pro、Midjourney V7、Ideogram 3.0などと同じプロンプトで比較テストすると、違いを実感できます。
  4. APIリリースへの備え
    GPT-Image-1.5 API基準で高品質1024x1024画像が$0.133/枚。GPT-Image-2は新アーキテクチャのため$0.15〜0.20程度に小幅値上がりする可能性があります。

競合の全体像

モデル主な強みGPT-Image-2との比較
Nano Banana ProGoogleコンピューティング、先行効果ブラインドテストでGPT-Image-2に劣るとの評価が多数
Midjourney V7芸術的スタイル、コミュニティフォトリアリズム・テキストレンダリングで劣勢
FLUX Proオープンソース、ローカルデプロイ世界知識・複雑なシーン処理で差
Ideogram 3.0テキストレンダリング特化単一次元ではなく総合力でGPT-Image-2が優位

さらに深掘りしたい人へ

LM Arenaのブラインドテスト方式

LM Arenaはユーザーがモデル名を知らない状態で2つの結果を比較評価するプラットフォームです。マーケティングなしで純粋な実力でEloスコアが付けられるため、ここで高いスコアを獲得すると実際の性能が検証されたことになります。OpenAIは2025年12月にもChestnut、Hazelnutというコードネームでテストを経てからGPT-Image-1.5をリリースした経緯があります。

Sora終了とGPUの再配置

Soraは2026年3月に終了しましたが、ピーク時の1日の推論コストだけで1,500万ドルでした。サービス全体のアプリ内売上はわずか210万ドルだったとのことです。Sam Altmanは「次世代自動化研究者とエンタープライズアプリケーションにコンピューティングを集中させる」と述べており、GPT-Image-2はその恩恵を受けた存在の一つとみられます。

多言語テキストレンダリング

トルコ語圏のユーザーがGPT-Image-2の非ラテン文字レンダリング能力をテストしたところ、以前のモデルよりもはるかに正確に処理したという報告があります。日本語、アラビア語などでも改善が期待されます。