小红花·文摘

本研究提出了一种时间加权对比奖励学习（TW-CRL）框架，旨在提高逆强化学习的效率。通过引入时间信息，TW-CRL利用成功与失败的示范学习密集奖励函数，帮助智能体避免“陷阱状态”，并鼓励更有意义的探索。实验结果表明，该方法在导航和机器人操作任务中优于现有技术。