InfoQ ·

OpenAI发布了改进版的GPT-4o图像生成能力

💡 原文英文，约600词，阅读约需2分钟。

📝

内容提要

OpenAI发布了新版本的GPT-4o，具备原生图像生成能力，能够修改上传的图像或根据提示创建新图像，并保持多轮一致性。该模型直接处理图像输出，使用自回归生成方法，在文本渲染和提示遵循方面表现优异。同时，OpenAI建立了工具以识别生成的图像，防止违反内容政策的图像生成。

🎯

关键要点

OpenAI发布了新版本的GPT-4o，具备原生图像生成能力。
GPT-4o能够修改上传的图像或根据提示创建新图像，并保持多轮一致性。
新模型直接处理图像输出，使用自回归生成方法，优于之前的DALL-E模型。
GPT-4o在文本渲染和提示遵循方面表现优异，能够生成多达10-20个不同对象的图像。
生成的图像包含C2PA标签，表明是由AI生成的，OpenAI建立了内部工具来识别生成的图像。
OpenAI会阻止违反内容政策的图像生成，但会尊重用户的创意控制。
更新的系统卡描述了模型的潜在风险和采取的缓解措施，包括广泛的红队测试。
模型会拒绝生成某些类型的图像，例如活跃艺术家的风格，但会生成公共人物的图像。
用户评论指出生成图像的质量，特别是文本渲染的能力有显著提升。
模型在处理非拉丁字符的语言时存在困难，可能生成不准确或虚构的文本。

🔎

延伸解读

图像生成能力的提升

GPT-4o的图像生成能力显著提升，尤其在文本渲染和提示遵循方面表现优异。这意味着用户可以更准确地实现他们的视觉创意，尤其是在需要细致文本的图像中。相比于之前的DALL-E模型，GPT-4o在处理复杂图像时的表现更为出色，能够生成多达10-20个不同对象的图像，适合多样化的创作需求。

内容政策与创意控制

OpenAI在GPT-4o中加强了对内容政策的遵循，确保生成的图像不会违反规定。尽管如此，用户的创意控制仍然受到重视，模型会根据用户的明确请求生成相应内容。这种平衡使得用户在创作时能够享有更大的自由度，同时也保障了内容的合规性。

潜在风险与安全措施

OpenAI在发布GPT-4o时，更新了系统卡以描述模型的潜在风险及其缓解措施，包括广泛的红队测试。这表明OpenAI对模型的安全性和可靠性非常重视，用户在使用时应关注这些风险，尤其是在生成涉及公共人物或敏感内容的图像时。

语言处理的局限性

尽管GPT-4o在图像生成方面表现出色，但在处理非拉丁字符的语言时仍存在困难，可能导致生成的文本不准确或虚构。这一局限性提醒用户在使用该模型时，特别是在多语言环境中，需谨慎对待生成的文本内容，以避免误解或错误信息的传播。

❓

延伸问答

GPT-4o的图像生成能力有什么特点？

GPT-4o具备原生图像生成能力，能够修改上传的图像或根据提示创建新图像，并保持多轮一致性。

GPT-4o与之前的DALL-E模型有什么不同？

GPT-4o直接处理图像输出，使用自回归生成方法，而DALL-E使用扩散方法，GPT-4o在文本渲染和提示遵循方面表现更优。

OpenAI如何确保生成图像不违反内容政策？

OpenAI会阻止生成违反内容政策的图像，并建立了内部工具来识别生成的图像，同时尊重用户的创意控制。

GPT-4o生成的图像如何标识？

生成的图像包含C2PA标签，表明是由AI生成的。

用户对GPT-4o生成图像的质量有什么反馈？

用户评论指出生成图像的质量显著提升，特别是在文本渲染能力方面。

GPT-4o在处理非拉丁字符的语言时有什么问题？

模型在处理非拉丁字符的语言时存在困难，可能生成不准确或虚构的文本。

🏷️