贝尔曼扩散：生成建模作为在分布空间中学习线性算子

本研究针对深度生成模型在马尔可夫决策过程中的应用不足问题，提出了贝尔曼扩散框架，以保持线性特性，满足贝尔曼方程的要求。通过新的随机微分方程采样和基于散度的训练方法，贝尔曼扩散在分布强化学习任务中收敛速度比传统直方图方法快1.5倍，为生成模型在决策框架中的集成开辟了新途径。

我们提出了一种最大熵反向强化学习方法，称为最大熵 IRL 的扩散 (DxMI)，用于在较少生成步骤下提高扩散生成模型的样本质量。通过同时训练扩散模型和基于能量的模型，实现了高效更新和收敛。我们还引入了动态规划扩散 (DxDP) 算法，优化了模型更新。实验证明，DxMI 能在少量步骤内生成高质量样本，并提升异常检测性能。

动态规划反向强化学习建模异常检测扩散模型最大熵