量子位 ·

谢赛宁新作：VAE退役，RAE当立

💡 原文中文，约1900字，阅读约需5分钟。

📝

内容提要

谢赛宁团队的新研究表明，VAE时代已结束，RAE（表征自编码器）将取而代之。RAE结合预训练编码器与轻量解码器，提供高质量重建和快速收敛，尤其在图像生成方面表现优异，克服了VAE的多项局限。

🎯

🔎

RAE（表征自编码器）通过结合预训练编码器与轻量解码器，显著提升了图像生成的质量和收敛速度。这一新架构在无需额外训练的情况下，能够快速适应不同的任务，尤其在高维空间的应用中展现出良好的性能，预示着其在未来图像生成领域的广泛应用潜力。

VAE（变分自动编码器）在信息容量和表征能力方面存在明显不足，导致生成质量和收敛速度受到影响。其复杂的架构和高运算量使得在实际应用中面临挑战。因此，研究者们转向RAE，旨在克服这些局限，推动图像生成技术的进步。

在高维空间中，扩散模型需要进行简单的调整以提高性能。通过优化噪声调度和解码器设计，可以有效提升模型的鲁棒性和生成效果。这些调整不仅简化了模型结构，还为未来的研究提供了新的思路，值得关注。

❓

RAE结合预训练编码器与轻量解码器，提供高质量重建和快速收敛，克服了VAE的多项局限，如复杂架构和信息容量限制。

RAE的核心设计是将预训练的表征编码器与轻量级解码器结合，替代传统的VAE结构。

RAE在图像生成方面表现优异，尤其在256×256和512×512分辨率下，生成效果显著优于SD-VAE。

VAE的主要局限性包括过时的骨干网络导致架构复杂、潜空间过度压缩限制信息容量，以及表征能力薄弱影响生成质量。

RAE通过简化模型结构，无需额外训练或对齐阶段，实现了比基于SD-VAE的模型快达16倍的收敛速度。

扩散模型在高维空间中需进行简单调整，包括宽DiT设计、噪声调度和噪声解码器，以提升模型性能。

🏷️