GPT-Image-2 全面发布：Elo 领先第二名 242 分，图像生成正在成为代码 Agent 的前端接口

发布背景

2026 年 4 月 22 日，OpenAI 全面推出 GPT-Image-2，覆盖 ChatGPT、API 接口和 Codex 平台。同一天，Figma、Canva、Adobe Firefly 等主要设计工具完成了与该模型的集成——这种上线即生态就绪的节奏说明合作伙伴提前获得了访问权限。

这次发布的时间点也值得关注：Sora 团队在此之前经历了内部调整，GPT-Image-2 的推出被视为 OpenAI 在图像生成领域的重新发力信号。

当前公开的 Arena 排行榜数据：

+242 Elo 的领先幅度在模型排行榜上属于显著差距——在 AI Arena 这类系统中，20-30 Elo 的差距通常已经构成实际可感知的质量区别，242 意味着领先层级上的质的差距。

文字渲染与布局保真度

此前图像生成模型的通病是文字渲染质量差——生成的图中文字模糊、拼写错误、字体不一致。GPT-Image-2 在这一维度上实现了明显突破，能够在图像中精确渲染文字，包括多语言内容。

这一能力对实用场景至关重要：制作包含文字的信息图表、带有标签的 UI 截图、幻灯片、营销物料——这些需求的规模远超"艺术创作"。

"Thinking" 模式

GPT-Image-2 引入 Thinking 变体，支持：

这实际上是把模型从"一次性生成"变为"迭代优化"流程，对高精度要求的场景（如 UI 设计稿、技术文档配图）有实际价值。

编辑能力

单图编辑和多图编辑都进入 Arena 排行榜前列。多图编辑意味着可以基于多张参考图生成统一风格的输出——对品牌物料批量生产有直接价值。

评测者在这次发布中普遍强调一个观察：GPT-Image-2 的价值不在艺术创作质量，而在实用场景的可用性。

核心场景：

这个定位转变对整个图像生成产品方向有重要含义。

评测中出现的一个新用法引发关注：设计师生成 UI 设计稿图像，代码 Agent 据此编写实现代码。

在这个工作流中，图像不是最终输出，而是代码 Agent 的输入规格。设计和工程之间的接口从"Figma 文件 + 设计文档"变成了"一张图"。

这个路径的意义在于：

如果这个工作流在实际团队中被采纳，会对设计-工程协作工具的价值链产生影响。现有的设计稿到代码工具（如 Locofy、Builder.io）走的是解析设计文件的路线，而图像生成 + 代码 Agent 的组合走的是更直接的视觉输入路线。

发布同日完成集成的平台：

这种同步集成的能力通常意味着这些平台在正式发布之前已经获得了 API 访问权限并完成了技术集成工作，是 OpenAI 推进生态合作节奏的典型模式。