ChatGPT Images 2.0突然发布，排版设计能力巨大提升

（文/万肇生编辑/张广凯）

当地时间4月21日，美国人工智能公司OpenAI对外正式推出ChatGPT Images 2.0模型，这是其ChatGPT平台内图像生成功能的最新一次升级。

该模型旨在提升对图像生成指令的“听话”程度、细节保真度以及文本渲染质量，尤其在处理图像中的文字元素时表现出明显进步。

ChatGPT Images 2.0发布，主打文字处理能力。

根据OpenAI的官方发布，本次更新的模型为所有ChatGPT用户提供基础访问权限，经观察者网实测，大致每天可以生成5张左右图片。而付费用户可则使用增强的“图片思考”模式，后者整合了推理能力、多输出生成以及网络搜索工具等功能。

无论是OpenAI官方还是用户评测，均认为ChatGPT Images 2.0的最大改进，在于图像中文字的生成质量。长期以来，扩散模型在处理小尺寸文本时面临挑战，因为文字像素在整个图像中占比极小，模型往往优先重建更大区域，导致拼写错误或字体不自然。

OpenAI表示，Images 2.0实现了“前所未有的特异性和保真度”，能够有效概念化复杂图像，并忠实呈现用户指定的细节，包括小文本、图标、用户界面元素、密集构图以及细微的风格约束，输出分辨率最高可达2K。

科技媒体Tech Crunch实际测试则印证了这一进步。平台使用提示生成一份墨西哥餐厅菜单，结果显示菜单上的菜品名称和价格基本合理，整体效果足以在真实餐厅中使用，难以看出是AI生成。与之形成对比的是，该媒体两年前使用另一模型生成的类似菜单，其中则出现了“多种明显拼写错误。

生成具有风格化的菜单，字体清晰不粘连图自TechCrunch

除了英文文本，模型在非拉丁语系文字处理上也有提升，支持包括中文在内的多种语言的准确渲染。这使得它在生成包含多语言元素的图像时更具实用性。

对此，观察者网通过免费生成功能的简单指令，让其制作一份会员服务“观察员”的宣传海报。其中，海报内汉字清晰可见，极少有以往AI图像生成时出现的笔划粘连情况，而且海报布局合理，完成度较高，抽卡方面较以往图片模型显著友好。

但美中不足的是，由于未指明具体文案，除了“观察员”外，会员的功能权益、定价、LOGO等文案内容有一定程度的出入。不过，这不妨碍该海报在经过后期美术简单处理后，得以实现产能意义上的快速爬坡。

ChatGPT生成的“观察员”海报，如果去掉有出入的文案部分，整体设计完成度已达到较高水平。

另一方面，图片思考模式还引入了推理能力，可以让模型进行网络搜索以获取最新信息，并进行自我检查以优化输出。这些能力意味着图像生成速度，远不如直接与ChatGPT对话那么快，但实测中生成像多格漫画这样复杂的内容时，该模型仍然只需几分钟。

需要注意的是，在AI图像生成领域，扩散模型和自回归模型是两种主流的技术路线，如今前沿模型通常将两者结合，而OpenAI未解释该模型底层架构属于哪种。不过，随着OpenAI推动图像生成技术的进步，势必会进一步增加人类识别AI生成内容的难度，引发对虚假内容的担忧。

美国财经媒体《商业内幕》（Business Insider）就认为，此类模型具备生成逼真图像的能力，很容易被用于创建具备误导性的图片或伪造照片。而模型的“思考”模式接入网络搜索，虽有助于事实核查，但其基于截止2025年12月的数据库，随着时间可能放大生成内容的时效性风险。

正如上文生成的“观察员”海报一样，文案内容与真实权益出入较大，这不得不让人担心，AI在生成新闻配图、产品宣传或社交媒体内容时，若任由其自主生成文案、且缺乏明确的AI生成标记，可能将导致错误信息传播的情况。

历史经验显示，类似的模型工具曾被不法之人用于创建深度伪造内容，因此平台责任与用户自律一样重要。但目前，OpenAI还未公布针对Images 2.0的特定新安全机制细节。此外，OpenAI也没有透露训练数据来源，一旦模型生成与现有人类作品高度相似的图像时，也可能引发版权之争。

但抛去上述风险，从技术向善的角度出发，ChatGPT Images 2.0仍然不失为一次务实的迭代升级。它在文本渲染、指令遵循和复杂构图方面的改进，使AI图像生成更接近日常实用水平，而非仅停留在概念演示。经过几轮简单的测试结果也能看出，该模型在简单商业场景中已能产生可用成果，这本身就是对过去两年技术瓶颈的突破。