何恺明团队新作:扩散模型可能被用错了

💡 原文中文,约1800字,阅读约需5分钟。
📝

内容提要

何恺明团队的新论文提出扩散模型应聚焦于去噪,直接预测干净图像而非噪声。新架构JiT(Just image Transformers)设计简化,避免复杂组件,实验表明其在高维空间中表现优越,生成质量高。

🎯

关键要点

  • 何恺明团队的新论文提出扩散模型应聚焦于去噪,直接预测干净图像而非噪声。
  • 扩散模型的主流玩法是预测噪声,但这与其去噪的本质相悖。
  • 流形假设认为自然图像集中在低维流形上,而噪声则均匀分布在高维空间中。
  • 直接预测干净图像可以降低模型容量要求,更符合神经网络的设计初衷。
  • 新架构JiT(Just image Transformers)设计简化,不依赖复杂组件和预训练特征。
  • JiT在高维空间中表现优越,生成质量高,且在ImageNet上达到了SOTA级FID分数。
  • 研究团队的成员黎天鸿在表征学习和生成模型方面有深入研究。
➡️

继续阅读