The New Stack ·

随着ChatGPT Images 2.0的推出，OpenAI现在在绘图前会进行“思考”

Q: Images 2.0的分辨率支持是多少？

该模型最高支持2K分辨率的图像生成。

💡 原文英文，约1000词，阅读约需4分钟。

📝

内容提要

OpenAI推出的ChatGPT Images 2.0标志着图像生成技术的重大进步。该模型具备推理能力，能够从单一提示生成多达八幅图像，并进行自我验证。它支持多种语言，尤其在处理非拉丁文本方面表现出色，尽管在某些复杂任务上仍有局限，但为创意工作提供了更高的准确性和一致性。

🎯

关键要点

OpenAI推出的ChatGPT Images 2.0标志着图像生成技术的重大进步，具备推理能力。
该模型能够从单一提示生成多达八幅图像，并进行自我验证。
Images 2.0支持多种语言，尤其在处理非拉丁文本方面表现出色。
模型分为即时模式和思考模式，思考模式能够保持多个帧之间的角色和物体一致性。
该模型能够处理细致的元素，如小文本、图标和用户界面元素，最高支持2K分辨率。
多样的宽高比支持使得输出可以直接用于横幅、移动屏幕和社交图形。
OpenAI承认模型在某些复杂任务上仍存在局限性，如物理世界模型的连贯性。
早期用户反馈显示，模型在执行提示时不仅仅是渲染图像，还能理解创意和受众。

🔎

延伸解读

推理能力的突破

ChatGPT Images 2.0的推出标志着图像生成技术的重大进步，尤其是其推理能力的增强。这使得模型能够在生成图像时进行自我验证，确保输出的准确性和一致性。这一特性对于需要高质量视觉内容的创意工作尤为重要，能够帮助设计师和创作者更高效地实现他们的构思。

多语言支持的提升

该模型在处理非拉丁文本方面表现出色，尤其是对中文、日文和韩文的支持显著提升。这一进步使得全球用户能够更方便地使用该工具，尤其是在多语言环境中进行创作时，能够减少语言障碍带来的困扰。

局限性与未来发展

尽管ChatGPT Images 2.0在许多方面表现优异，但OpenAI也承认其在处理复杂物理世界模型时仍存在局限性。这些局限性为未来的技术改进提供了方向，开发者需要关注这些“重要前沿”，以推动模型的进一步发展。

❓

延伸问答

ChatGPT Images 2.0的主要功能是什么？

ChatGPT Images 2.0能够从单一提示生成多达八幅图像，并具备推理能力和自我验证功能。

Images 2.0如何处理非拉丁文本？

该模型在处理非拉丁文本方面表现出色，特别是在日语、韩语、中文、印地语和孟加拉语的渲染上有显著提升。

思考模式与即时模式有什么区别？

思考模式通过推理图像结构来生成图像，保持多个帧之间的一致性，而即时模式则提供快速输出。

Images 2.0的分辨率支持是多少？