UMI——斯坦福刷盘机器人：从手持夹持器到动作预测Diffusion Policy(含代码解读)

如下图所示a)具有不同类型动作表示的显式策略(b)隐式策略学习以动作和观察为条件的能量函数，并对最小化能量景观的动作进行优化(c)扩散策略通过学习的梯度场将噪声细化为动作。这种表述提供了稳定的训练，允许学习到的策略准确地建模为多模态动作分布，并容纳高维动作序列进一步，所谓扩散策略，是指将机器人的视觉运动策略表示为条件去噪扩散过程来生成机器人行为的新方法扩散策略学习动作-分布评分函数的梯度即该...

本文解读了Columbia University、Toyota Research Institute、MIT联合发布的《Diffusion Policy:Visuomotor Policy Learning via Action Diffusion》论文，介绍了扩散策略的原理和优势。扩散策略通过学习梯度场将噪声细化为动作，准确建模多模态动作分布，容纳高维动作序列。文章还介绍了基于CNN和Transformer的扩散策略实现方法，并讨论了扩散策略在动作序列预测和训练稳定性方面的好处。

diffusion 动作序列多模态动作分布扩散策略机器人梯度场训练稳定性