本研究提出了一种新方法——通过时间距离实现情节新颖性(ETD),有效应对稀疏奖励环境中的探索挑战,实验结果表明其优于现有方法。
本研究解决了稀疏奖励环境下强化学习中的探索挑战。
研究特别关注情境马尔可夫决策过程(CMDPs)。
提出了一种新方法——通过时间距离实现情节新颖性(ETD)。
ETD使用时间距离作为状态相似性和内在奖励计算的有效指标。
实验结果表明ETD在推动探索方面显著优于现有的先进方法。
完成下面两步后,将自动完成登录并继续当前操作。