机器之心 ·

刚刚，GPT-4o原生图像生成上线，P图、生图也就一嘴的事

💡 原文中文，约4900字，阅读约需12分钟。

📝

内容提要

OpenAI推出的GPT-4o具备原生图像生成能力，能够根据文本提示生成高质量图像，支持多种输入形式。尽管存在裁剪和多语言渲染等局限性，GPT-4o仍为用户提供了强大的图像创作工具，适合多种用户群体。

🎯

🔎

GPT-4o的图像生成能力不仅限于简单的图像创建，它能够处理复杂的场景和多种对象。这使得用户在设计游戏角色、制作广告或创建视觉信息图表时，可以更灵活地表达创意，提升工作效率。用户应关注如何利用这一特性来实现更高效的视觉沟通。

尽管GPT-4o在图像生成方面表现出色，但仍存在裁剪、幻觉和多语言渲染等局限性。用户在使用时需谨慎，特别是在处理复杂图像或需要精确文本时，可能会遇到不准确的情况。了解这些局限性有助于用户更合理地设定期望。

OpenAI在GPT-4o的安全性方面做了大量工作，包括阻止不良内容生成和提供透明的图像来源。用户在使用时应关注这些安全措施，确保生成的内容符合道德标准，尤其是在涉及敏感主题时。

❓

GPT-4o能够精准呈现文字内容，严格遵循指令要求，并具备视觉流畅性和上下文感知能力。

用户只需简单描述需求，包括细节，如宽高比和颜色，GPT-4o便能生成定制图像。

GPT-4o存在裁剪、幻觉、高结合问题等局限性，可能在处理复杂图像时出现不准确。

GPT-4o集成了先进的图像生成器，能够同时理解文本、代码和图像等多种输入形式。

GPT-4o的图像生成能力向Plus、Pro、Team和免费用户推出，企业版和教育版用户需等待。

由于生成更详细的图像，GPT-4o的渲染时间通常长达一分钟。

🏷️