科学空间|Scientific Spaces ·

生成扩散模型漫谈（三十一）：预测数据而非噪声

💡 原文中文，约5400字，阅读约需13分钟。

📝

内容提要

LDM（潜在扩散模型）仍然是主流，但高倍压缩导致信息损失。新方法JiT直接预测原始数据，简化模型架构，提升高分辨率生成效果。尽管JiT未显著超越现有SOTA，但降低了计算成本，增强了模型的可迁移性和统一性。

🎯

🔎

尽管LDM（潜在扩散模型）在当前扩散模型中占据主导地位，但其高倍压缩导致的信息损失是一个不容忽视的问题。JiT（Just image Transformers）通过直接预测原始数据，简化了模型架构，虽然未显著超越LDM，但在计算成本和模型可迁移性上提供了新的思路。

高分辨率扩散生成面临固有困难，使用相同的Noise Schedule会导致训练效率低下。调整Noise Schedule以提高信噪比是改善生成效果的关键。JiT的提出正是基于这一点，强调在高分辨率生成中，模型应优先预测原始数据而非噪声。

虽然JiT未能刷新现有的SOTA，但它可能降低SOTA的计算成本，并提升低分辨率到高分辨率的可迁移性。这一特性使得JiT在视觉理解与生成的架构统一性上具有重要意义，可能为未来的多模态模型设计提供新的方向。

❓

JiT（Just image Transformers）模型是一种新方法，它直接预测原始数据而非噪声，简化了扩散模型架构，并提升了高分辨率生成效果。

LDM（潜在扩散模型）能显著降低计算成本和训练难度，但高倍压缩导致信息损失。

JiT通过调整高分辨率扩散模型的Noise Schedule，提高信噪比，从而改善生成效果。

尽管JiT未显著超越现有SOTA，但它降低了计算成本，并增强了从低分辨率到高分辨率的可迁移性。

JiT模型的提出基于原始数据往往处于低维子流形的事实，这使得预测数据比预测噪声更容易。

JiT使视觉理解和生成的架构更为统一，简化了模型设计，有助于多模态模型的开发。

🏷️