小红花·文摘

Redis Blog ·

本研究提出了NCDPO框架，旨在解决扩散策略在决策场景中因示范数据的亚最优和有限覆盖导致的次优轨迹生成问题。通过将扩散策略重构为噪声条件下的确定性策略，实现了可追踪的似然评估和梯度反向传播，显著提高了样本效率，并在多项基准测试中优于现有方法。

BriefGPT - AI 论文速递 ·