何恺明团队新作:扩散模型可能被用错了
💡
原文中文,约1800字,阅读约需5分钟。
📝
内容提要
何恺明团队的新论文提出扩散模型应聚焦于去噪,直接预测干净图像而非噪声。新架构JiT(Just image Transformers)设计简化,避免复杂组件,实验表明其在高维空间中表现优越,生成质量高。
🎯
关键要点
- 何恺明团队的新论文提出扩散模型应聚焦于去噪,直接预测干净图像而非噪声。
- 扩散模型的主流玩法是预测噪声,但这与其去噪的本质相悖。
- 流形假设认为自然图像集中在低维流形上,而噪声则均匀分布在高维空间中。
- 直接预测干净图像可以降低模型容量要求,更符合神经网络的设计初衷。
- 新架构JiT(Just image Transformers)设计简化,不依赖复杂组件和预训练特征。
- JiT在高维空间中表现优越,生成质量高,且在ImageNet上达到了SOTA级FID分数。
- 研究团队的成员黎天鸿在表征学习和生成模型方面有深入研究。
➡️