(文/万肇生 编辑/张广凯)
当地时间4月21日,美国人工智能公司OpenAI对外正式推出ChatGPT Images 2.0模型,这是其ChatGPT平台内图像生成功能的最新一次升级。
该模型旨在提升对图像生成指令的“听话”程度、细节保真度以及文本渲染质量,尤其在处理图像中的文字元素时表现出明显进步。
ChatGPT Images 2.0发布,主打文字处理能力。
根据OpenAI的官方发布,本次更新的模型为所有ChatGPT用户提供基础访问权限,经观察者网实测,大致每天可以生成5张左右图片。而付费用户可则使用增强的“图片思考”模式,后者整合了推理能力、多输出生成以及网络搜索工具等功能。
无论是OpenAI官方还是用户评测,均认为ChatGPT Images 2.0的最大改进,在于图像中文字的生成质量。长期以来,扩散模型在处理小尺寸文本时面临挑战,因为文字像素在整个图像中占比极小,模型往往优先重建更大区域,导致拼写错误或字体不自然。
OpenAI表示,Images 2.0实现了“前所未有的特异性和保真度”,能够有效概念化复杂图像,并忠实呈现用户指定的细节,包括小文本、图标、用户界面元素、密集构图以及细微的风格约束,输出分辨率最高可达2K。
科技媒体Tech Crunch实际测试则印证了这一进步。平台使用提示生成一份墨西哥餐厅菜单,结果显示菜单上的菜品名称和价格基本合理,整体效果足以在真实餐厅中使用,难以看出是AI生成。与之形成对比的是,该媒体两年前使用另一模型生成的类似菜单,其中则出现了“多种明显拼写错误。
生成具有风格化的菜单,字体清晰不粘连图自TechCrunch
除了英文文本,模型在非拉丁语系文字处理上也有提升,支持包括中文在内的多种语言的准确渲染。这使得它在生成包含多语言元素的图像时更具实用性。
对此,观察者网通过免费生成功能的简单指令,让其制作一份会员服务“观察员”的宣传海报。其中,海报内汉字清晰可见,极少有以往AI图像生成时出现的笔划粘连情况,而且海报布局合理,完成度较高,抽卡方面较以往图片模型显著友好。
但美中不足的是,由于未指明具体文案,除了“观察员”外,会员的功能权益、定价、LOGO等文案内容有一定程度的出入。不过,这不妨碍该海报在经过后期美术简单处理后,得以实现产能意义上的快速爬坡。
ChatGPT生成的“观察员”海报,如果去掉有出入的文案部分,整体设计完成度已达到较高水平。
另一方面,图片思考模式还引入了推理能力,可以让模型进行网络搜索以获取最新信息,并进行自我检查以优化输出。这些能力意味着图像生成速度,远不如直接与ChatGPT对话那么快,但实测中生成像多格漫画这样复杂的内容时,该模型仍然只需几分钟。
需要注意的是,在AI图像生成领域,扩散模型和自回归模型是两种主流的技术路线,如今前沿模型通常将两者结合,而OpenAI未解释该模型底层架构属于哪种。不过,随着OpenAI推动图像生成技术的进步,势必会进一步增加人类识别AI生成内容的难度,引发对虚假内容的担忧。
美国财经媒体《商业内幕》(Business Insider)就认为,此类模型具备生成逼真图像的能力,很容易被用于创建具备误导性的图片或伪造照片。而模型的“思考”模式接入网络搜索,虽有助于事实核查,但其基于截止2025年12月的数据库,随着时间可能放大生成内容的时效性风险。
正如上文生成的“观察员”海报一样,文案内容与真实权益出入较大,这不得不让人担心,AI在生成新闻配图、产品宣传或社交媒体内容时,若任由其自主生成文案、且缺乏明确的AI生成标记,可能将导致错误信息传播的情况。
历史经验显示,类似的模型工具曾被不法之人用于创建深度伪造内容,因此平台责任与用户自律一样重要。但目前,OpenAI还未公布针对Images 2.0的特定新安全机制细节。此外,OpenAI也没有透露训练数据来源,一旦模型生成与现有人类作品高度相似的图像时,也可能引发版权之争。
但抛去上述风险,从技术向善的角度出发,ChatGPT Images 2.0仍然不失为一次务实的迭代升级。它在文本渲染、指令遵循和复杂构图方面的改进,使AI图像生成更接近日常实用水平,而非仅停留在概念演示。经过几轮简单的测试结果也能看出,该模型在简单商业场景中已能产生可用成果,这本身就是对过去两年技术瓶颈的突破。