该文介绍了一种新的奖励学习模块,可以通过生成模型生成内在奖励信号,提高模块在环境中的动力学建模能力,并为模仿代理提供了模仿者的内在意图和更好的探索能力。该模型在多个 Atari 游戏中的表现优于现有的 IRL 方法,即使只有一次演示,性能也是演示的 5 倍。
完成下面两步后,将自动完成登录并继续当前操作。