扩散模型训练方法一直错了!谢赛宁:Representation matters

扩散模型训练方法一直错了!谢赛宁:Representation matters

💡 原文中文,约3700字,阅读约需9分钟。
📝

内容提要

纽约大学研究者提出了一种名为REPA的技术,通过对齐自监督视觉表征与扩散Transformer,提升了扩散模型的训练效率和生成质量。REPA减少了迭代次数,尤其在无分类器引导下,生成质量达到最佳。该技术通过最大化预训练表征与隐藏状态的相似性,实现高效对齐。

🎯

关键要点

  • 纽约大学研究者提出了REPA技术,通过对齐自监督视觉表征与扩散Transformer,提升了扩散模型的训练效率和生成质量。

  • REPA减少了迭代次数,尤其在无分类器引导下,生成质量达到最佳。

  • REPA通过最大化预训练表征与隐藏状态的相似性,实现高效对齐。

  • REPA是一种简单的正则化方法,能将预训练的自监督视觉表征蒸馏到扩展Transformer。

  • REPA能将模型训练的效率提升17.5倍以上,生成质量方面取得了FID=1.42的最佳结果。

  • REPA的效果基于对扩散Transformer与自监督视觉编码器之间的表征对齐的研究。

  • REPA通过最大化预训练表征与扩散Transformer隐藏状态之间的patch-wise相似性来实现对齐。

  • REPA在大型模型中提供了显著的加速,生成和线性评估方面带来更快的增益。

  • 使用REPA的模型在没有无分类器引导的情况下,FID值显著优于普通模型。

➡️

继续阅读