机器之心 ·

GPT-4o图像生成的秘密，OpenAI 没说，网友已经拼出真相？

💡 原文中文，约3500字，阅读约需9分钟。

📝

内容提要

自OpenAI发布GPT-4o图像生成功能以来，网络上对此进行了广泛讨论。尽管OpenAI未透露技术细节，研究者们推测其可能结合了自回归与扩散生成或采用纯自回归生成方式。部分研究者认为，GPT-4o通过逐步生成图像，展现出与传统模型不同的特性，具体实现仍待OpenAI公布。

🎯

🔎

OpenAI 对 GPT-4o 的技术细节保持高度保密，这使得研究者们只能通过推测和逆向工程来理解其工作原理。这种不透明性可能导致对技术的误解或过度解读，用户在使用时应保持谨慎，避免将猜测视为事实。

GPT-4o 被认为是自回归模型，与传统的扩散模型如 DALL・E 有显著区别。自回归模型的逐步生成方式可能带来更高的连贯性和更快的生成速度，但也可能在某些复杂图像生成中表现不如扩散模型。用户在选择使用时应考虑这些差异。

用户在生成图像时看到的逐行生成效果实际上是前端动画，并不反映真实的生成过程。这意味着在分析 GPT-4o 的生成机制时，依赖前端展示可能导致错误的理解，研究者应关注更深层次的技术细节。

❓

研究者们猜测GPT-4o可能结合了自回归与扩散生成技术，或采用纯自回归生成方式。

OpenAI仅发布了一份附录文件，主要讨论评估、安全和治理，未详细说明技术细节。

GPT-4o通过流式传输图像token逐步生成图像，用户看到的效果是前端动画，并不反映真实生成过程。

GPT-4o是自回归模型，按顺序流式传输图像token，而传统模型通常是从噪声到清晰图像一次性完成转换。

研究者观察到GPT-4o生成图像时，先出现上半部分，且生成过程涉及流token，显示出更好的连贯性。

GPT-4o的具体实现仍待OpenAI公布，目前相关猜想和研究仍在进行中。

🏷️