Fine-tuning Diffusion Policies through Backpropagation via Diffusion Timesteps
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了NCDPO框架,旨在解决扩散策略在决策场景中因示范数据的亚最优和有限覆盖导致的次优轨迹生成问题。通过将扩散策略重构为噪声条件下的确定性策略,实现了可追踪的似然评估和梯度反向传播,显著提高了样本效率,并在多项基准测试中优于现有方法。
🎯
关键要点
-
本研究提出了NCDPO框架,旨在解决扩散策略在决策场景中因示范数据的亚最优和有限覆盖导致的次优轨迹生成问题。
-
通过将扩散策略重构为噪声条件下的确定性策略,实现了可追踪的似然评估和梯度反向传播。
-
该方法显著提高了样本效率,并在多项基准测试中优于现有方法。
➡️