小红花·文摘

本研究提出了过去令牌预测（PTP）作为辅助任务，以解决从演示中学习长上下文策略的挑战。该方法显著提升了时间建模能力和策略训练效率，使长上下文扩散策略的性能提高了3倍，训练速度加快超过10倍。

BriefGPT - AI 论文速递 ·

该研究聚焦于离线强化学习，提出多种新算法以提高策略训练的稳定性和效率。通过正则化当前策略的平稳分布、使用潜在变量模型和行为克隆等方法，显著提升了在连续控制任务中的表现，并解决了数据集质量对学习效果的影响。

BriefGPT - AI 论文速递 ·