小红花·文摘

GO-DICE是一种离线模仿学习技术，用于处理长期目标驱动的顺序任务。实验结果表明GO-DICE在Mujoco机器人任务的完成率方面有明显改善。GO-DICE还能够利用不完美的示例和部分任务分割来提高任务的性能。

BriefGPT - AI 论文速递 ·

该论文提出了一种新颖的离线模仿学习算法SMODICE，能够应用于三种离线模仿学习设置，通过Fenchel对偶和解析解在表格MDPs中优化了SMODICE目标。作者在小环境和高维度的离线基准环境上进行了广泛评估，表明SMODICE对所有三种问题设置都有效，且明显优于之前的技术水平。

BriefGPT - AI 论文速递 ·