UMI——斯坦福刷盘机器人:从手持夹持器到动作预测Diffusion Policy(含代码解读)
内容提要
本文解读了Columbia University、Toyota Research Institute、MIT联合发布的《Diffusion Policy:Visuomotor Policy Learning via Action Diffusion》论文,介绍了扩散策略的原理和优势。扩散策略通过学习梯度场将噪声细化为动作,准确建模多模态动作分布,容纳高维动作序列。文章还介绍了基于CNN和Transformer的扩散策略实现方法,并讨论了扩散策略在动作序列预测和训练稳定性方面的好处。
关键要点
-
本文解读了Columbia University、Toyota Research Institute、MIT联合发布的《Diffusion Policy:Visuomotor Policy Learning via Action Diffusion》论文。
-
扩散策略通过学习梯度场将噪声细化为动作,准确建模多模态动作分布,容纳高维动作序列。
-
扩散策略学习动作-分布评分函数的梯度,以视觉观察为条件进行K次去噪迭代推断。
-
扩散策略在动作序列预测和训练稳定性方面具有显著优势。
-
基于CNN的扩散策略通过FiLM调节卷积层通道,处理观测特征。
-
基于Transformer的扩散策略使用多头交叉注意力层,关注自身和之前的动作嵌入。
-
DDPM被用于学习机器人的视觉运动策略,需对公式进行修改以适应动作输出。
-
扩散策略的训练过程通过随机抽取样本和噪声估计网络进行优化。
-
视觉编码器将原始图像序列映射为潜在嵌入,并使用扩散策略进行端到端训练。
-
扩散策略在高维输出空间中保持良好扩展性,解决时间动作一致性问题。
-
扩散模型的训练过程更加稳定,避免了对归一化常数的估计问题。