广义对比散度:借助逆强化学习的能量模型和扩散模型的联合训练
💡
原文中文,约500字,阅读约需1分钟。
📝
内容提要
本文介绍了广义对比散度(GCD)的概念,它是一种同时训练能量模型(EBM)和采样器的新型客观函数。GCD通过用可训练的采样器取代马尔可夫链蒙特卡罗(MCMC)分布,将对比散度这种训练EBM的算法进行泛化。GCD的极小-极大学习与逆强化学习存在等价性,通过联合训练对EBM和扩散模型都有益处。GCD使得EBM训练无需MCMC,同时提高了扩散模型的样本质量。
🎯
关键要点
- 广义对比散度(GCD)是一种新型客观函数,用于同时训练能量模型(EBM)和采样器。
- GCD通过可训练的采样器替代马尔可夫链蒙特卡罗(MCMC)分布,泛化了对比散度算法。
- 在GCD中,EBM和扩散模型的联合训练被视为一个极小-极大问题,旨在实现模型收敛到数据分布的平衡。
- GCD的极小-极大学习与逆强化学习存在等价性,能量对应负奖励,扩散模型作为策略,真实数据为专家示范。
- 初步结果表明,GCD的联合训练对EBM和扩散模型均有益处。
- GCD使得EBM训练无需依赖MCMC,同时提升了扩散模型的样本质量。
➡️