小红花·文摘

本研究提出了一种新颖的逆强化学习方法，解决了固定奖励分配和隐式奖励正则化的灵活性问题。通过引入平方时间差正则化器和自适应目标动态调整，我们的方法在模仿学习中优化了奖励函数，并结合分布式强化学习，在MuJoCo任务上取得了优异的实验结果。