OVD-Explorer:噪声环境中的探索不应仅仅是乐观的追求
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文提出了一种基于模型的加强学习算法(H-UCRL),通过加强输入空间和利用先验不确定性来提高探索,优化策略时能区分不确定性和确定性。实验表明,该算法在已知惩罚的情况下能加速学习,并且适用于现有的基于模型的加强学习算法。
🎯
关键要点
-
提出了一种基于模型的加强学习算法(H-UCRL)。
-
通过加强输入空间和利用先验不确定性来提高探索。
-
优化策略时能够区分先验不确定性和先验确定性。
-
分析了 H-UCRL 的一般后悔界,并构建了可证明的次线性界。
-
乐观探索可以与最先进的强化学习算法及不同的概率模型相结合。
-
实验表明该算法在已知惩罚情况下显著加速学习。
-
该算法在现有的基于模型的加强学习算法中具有广泛适用性。
🏷️
标签
➡️