小红花·文摘

本文介绍了一种新的内在奖励方法，通过最大化代理路径的信息量来促进状态覆盖，解决稀疏奖励环境中的问题。相比好奇心驱动学习和随机网络蒸馏，该方法在探索效率上更优，尤其在Montezuma Revenge游戏中表现突出。此外，本文还提出了一种在离散压缩潜在空间中最大化信息量的扩展方法，提高了样本效率，并推广到连续状态空间。