贝尔曼扩散:生成建模作为在分布空间中学习线性算子
原文中文,约500字,阅读约需2分钟。发表于: 。本研究针对深度生成模型在马尔可夫决策过程中的应用不足问题,提出了贝尔曼扩散框架,以保持线性特性,满足贝尔曼方程的要求。通过新的随机微分方程采样和基于散度的训练方法,贝尔曼扩散在分布强化学习任务中收敛速度比传统直方图方法快1.5倍,为生成模型在决策框架中的集成开辟了新途径。
我们提出了一种最大熵反向强化学习方法,称为最大熵 IRL 的扩散 (DxMI),用于在较少生成步骤下提高扩散生成模型的样本质量。通过同时训练扩散模型和基于能量的模型,实现了高效更新和收敛。我们还引入了动态规划扩散 (DxDP) 算法,优化了模型更新。实验证明,DxMI 能在少量步骤内生成高质量样本,并提升异常检测性能。