本研究提出了一种时间加权对比奖励学习(TW-CRL)框架,旨在提高逆强化学习的效率。通过引入时间信息,TW-CRL利用成功与失败的示范学习密集奖励函数,帮助智能体避免“陷阱状态”,并鼓励更有意义的探索。实验结果表明,该方法在导航和机器人操作任务中优于现有技术。
完成下面两步后,将自动完成登录并继续当前操作。