具有广义函数近似的考虑不确定性的无奖励探索
本文介绍了一种无需奖励的强化学习算法,通过不确定性感知的内在奖励来探索环境,并通过不同样本的不确定性加权学习处理异质性不确定性。实验结果表明,该算法在DeepMind Control Suite的各个领域和任务上的性能优于或与现有的无监督强化学习算法相当。
原文中文,约300字,阅读约需1分钟。
本文介绍了一种无需奖励的强化学习算法,通过不确定性感知的内在奖励来探索环境,并通过不同样本的不确定性加权学习处理异质性不确定性。实验结果表明,该算法在DeepMind Control Suite的各个领域和任务上的性能优于或与现有的无监督强化学习算法相当。