量子位 ·

挑战扩散自回归统治！字节提出视觉生成第三种路线，让模型像人类一样边画边改

💡 原文中文，约4700字，阅读约需12分钟。

📝

内容提要

字节团队研发的生成精炼网络（GRN）是一种新一代视觉生成模型，能够在生成过程中实时修改，解决了传统扩散和自回归模型的缺陷。GRN根据画面复杂度智能分配计算步骤，生成效果优于现有主流模型，在图像和视频生成任务中表现出色，为视觉生成开辟了新路径，未来有望提升多模态理解与生成能力。

🎯

🔎

生成精炼网络（GRN）通过允许实时修改生成过程，解决了传统模型的局限性。与扩散模型和自回归模型相比，GRN在处理复杂图像时能够更有效地分配计算资源，从而提高生成效率和质量。这种创新设计为视觉生成领域带来了新的可能性，尤其是在多模态理解与生成方面。

GRN的成功不仅在于其技术创新，还在于其广泛的应用潜力。未来，GRN有望在图像、视频生成等多个领域发挥重要作用。然而，随着技术的进步，如何保持生成内容的多样性和真实性仍然是一个挑战。研究团队需要持续优化模型，以应对不断变化的需求和标准。

GRN在多个基准测试中超越了现有的主流生成模型，显示出其在生成质量和效率上的优势。与扩散模型相比，GRN能够更智能地分配计算步骤，而与自回归模型相比，则有效避免了错误的累积。这种综合优势使得GRN在视觉生成领域具备了更高的竞争力。

❓

生成精炼网络（GRN）是一种新一代视觉生成模型，能够在生成过程中实时修改，解决传统扩散和自回归模型的缺陷。

GRN允许在生成过程中及时纠正错误，能够根据画面复杂度智能分配计算步骤，从而提高生成效果。

GRN的核心架构包括层次二叉树量化、全局精炼网络和复杂度感知采样。

GRN在多项基准测试中刷新了SOTA记录，生成质量超越了主流的扩散模型和自回归模型。

GRN采用熵来衡量画面复杂度，简单样本分配较少的推理步数，复杂样本则分配更多的精炼步数。

GRN有望提升多模态理解与生成能力，未来可能推出更大的模型以进一步提高性能。

🏷️