小红花·文摘

HybridVLA是一种新型视觉-语言-动作模型，结合自回归和扩散策略，旨在提升机器人在动态环境中的操作能力。通过协同训练，该模型有效整合两种生成方法的优势，提高了动作预测的准确性和鲁棒性，并在多样化数据集上展现出优越的性能。

HybridVLA——让单一LLM同时具备扩散和自回归动作预测能力：训练时既扩散也回归，但推理时则扩散

结构之法算法之道 ·

本研究提出了NCDPO框架，旨在解决扩散策略在决策场景中因示范数据的亚最优和有限覆盖导致的次优轨迹生成问题。通过将扩散策略重构为噪声条件下的确定性策略，实现了可追踪的似然评估和梯度反向传播，显著提高了样本效率，并在多项基准测试中优于现有方法。

Fine-tuning Diffusion Policies through Backpropagation via Diffusion Timesteps

BriefGPT - AI 论文速递 ·

ET-SEED：提升机器人操作泛化能力的高效等变扩散策略

机器之心 ·

本研究提出了一种最大熵强化学习与扩散策略（MaxEntDP），旨在解决传统高斯策略在复杂多目标强化学习中的探索能力不足的问题。实验结果表明，MaxEntDP 优于高斯策略及其他生成模型。

最大熵强化学习与扩散策略

BriefGPT - AI 论文速递 ·

本文介绍了扩散策略在机器人视觉运动中的应用，强调其在多模态动作分布、高维输出空间和稳定训练方面的优势。扩散策略通过条件去噪生成机器人行为，结合闭环动作序列和视觉条件化，提升了动作一致性和实时推理能力。同时，文章探讨了Diff-Control的背景及其通过ControlNet整合状态信息以增强动作生成一致性的技术架构。

Diffusion Policy——斯坦福UMI所用的动作预测算法：基于扩散模型的扩散策略(从原理到其编码实现)

结构之法算法之道 ·

本文介绍了多种离线强化学习方法，包括隐式Q学习（IQL）和隐式扩散Q学习（IDQL），通过改进策略和优化训练效率，在D4RL基准测试中取得了先进性能。研究还提出了扩散策略和时间效率方法CPQL，显著提升了策略改进和推理速度。此外，扩散演员-评论家（DAC）和高效扩散对齐（EDA）方法进一步优化了价值函数和策略微调，增强了样本效率和任务适应能力。

本文解读了Columbia University、Toyota Research Institute、MIT联合发布的《Diffusion Policy:Visuomotor Policy Learning via Action Diffusion》论文，介绍了扩散策略的原理和优势。扩散策略通过学习梯度场将噪声细化为动作，准确建模多模态动作分布，容纳高维动作序列。文章还介绍了基于CNN和Transformer的扩散策略实现方法，并讨论了扩散策略在动作序列预测和训练稳定性方面的好处。

UMI——斯坦福刷盘机器人：从手持夹持器到动作预测Diffusion Policy(含代码解读)

结构之法算法之道 ·

该文介绍了一种离线强化学习方法，利用先前的经验来学习政策，以解决分布偏移和有效表示策略的问题。该方法将状态重构特征学习纳入扩散策略中，以解决分布外泛化问题。作者在多个任务上评估了该模型的性能，实现了最先进的结果。

离线强化学习中的等变数据增强技术

BriefGPT - AI 论文速递 ·

HybridVLA——让单一LLM同时具备扩散和自回归动作预测能力：训练时既扩散也回归，但推理时则扩散

Fine-tuning Diffusion Policies through Backpropagation via Diffusion Timesteps

ET-SEED：提升机器人操作泛化能力的高效等变扩散策略

最大熵强化学习与扩散策略

Diffusion Policy——斯坦福UMI所用的动作预测算法：基于扩散模型的扩散策略(从原理到其编码实现)

DIAR：基于扩散模型的隐式Q学习与自适应重估

UMI——斯坦福刷盘机器人：从手持夹持器到动作预测Diffusion Policy(含代码解读)

离线强化学习中的等变数据增强技术