具有广义函数近似的考虑不确定性的无奖励探索
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文介绍了一种无需奖励的强化学习算法,通过不确定性感知的内在奖励来探索环境,并通过不同样本的不确定性加权学习处理异质性不确定性。实验结果表明,该算法在DeepMind Control Suite的各个领域和任务上的性能优于或与现有的无监督强化学习算法相当。
🎯
关键要点
-
探索和学习在环境中掌握多个任务是强化学习中的重要挑战。
-
本文介绍了一种无需奖励的强化学习算法。
-
该算法的关键思想是通过不确定性感知的内在奖励来探索环境。
-
算法通过不同样本的不确定性加权学习处理异质性不确定性。
-
实验结果表明,该算法在DeepMind Control Suite的各个领域和任务上的性能优于或与现有的无监督强化学习算法相当。
➡️