扩散模型是否能学习语义上有意义且高效的表征?
原文中文,约600字,阅读约需2分钟。发表于: 。扩散模型通过生成具有合适阴影的不寻常的图像,如宇航员在月球上骑马,显示了具有组合泛化能力,但模型是如何做到的?我们在条件 DDPM 上进行了实验,学习生成以指定的 x 和 y 位置为中心的 2D 球形高斯隆起。我们的结果表明,有意义的语义潜在表示的出现是实现高性能的关键。在学习过程中,模型经历了三个不同阶段的潜在表示:(阶段 A)没有潜在结构,(阶段 B)二维无序状态流形,(阶段...
研究发现,扩散模型生成不寻常图像的能力受到语义潜在表示的影响。即使在不平衡的数据集中,模型仍然耦合地学习x和y的定位。未来的研究需要找到归纳偏差,以提高生成模型的效率。