本文介绍了一种新的内在奖励方法,通过最大化代理路径的信息量来促进状态覆盖,解决稀疏奖励环境中的问题。相比好奇心驱动学习和随机网络蒸馏,该方法在探索效率上更优,尤其在Montezuma Revenge游戏中表现突出。此外,本文还提出了一种在离散压缩潜在空间中最大化信息量的扩展方法,提高了样本效率,并推广到连续状态空间。
完成下面两步后,将自动完成登录并继续当前操作。