DEV Community ·

我与GPT-4o图像生成的较量

💡 原文英文，约800词，阅读约需3分钟。

📝

内容提要

GPT-4o在图像生成方面表现优异，能够创建复杂场景，但在深度和比例上仍有不足。尽管其语言理解能力强，生成的图像在视觉叙事上有所进步，但与人类在Photoshop中的细致操作相比，仍显得不够完美。

🎯

🔎

GPT-4o在图像生成方面展现了强大的语言理解能力，使其在场景构建和构图意识上优于其他模型。然而，尽管其生成的图像在色彩对比和构图上表现良好，但在深度和比例上仍显不足，导致生成的场景更像背景而非真实环境。

虽然GPT-4o能够快速生成复杂的图像，但与人类在Photoshop中的细致操作相比，仍存在差距。人类能够更好地处理光影逻辑、透视和边缘融合等细节，这些是GPT-4o目前难以完全复制的。

用户希望GPT-4o能够支持更高级的功能，如场景意识的故事板生成和角色锚定。这些功能的实现将进一步提升其在创意领域的应用潜力，使其在图像生成方面更具实用性和灵活性。

❓

GPT-4o能够创建复杂场景，生成无瑕疵的文本，并重现艺术风格和混合照片。

尽管GPT-4o在视觉叙事上有所进步，但仍不及人类在Photoshop中的细致操作。

在深度和比例上存在不足，生成的场景更像是背景而非真实场所。

用户希望支持场景意识的故事板生成、角色锚定和个人风格库等功能。

GPT-4o在色彩对比和构图方面表现良好，但在规模和环境整合上仍有改进空间。

GPT-4o的语言理解能力使其在场景理解和构图意识上优于其他图像生成模型。

🏷️