OVD-Explorer:噪声环境中的探索不应仅仅是乐观的追求

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文提出了一种基于模型的加强学习算法(H-UCRL),通过加强输入空间和利用先验不确定性来提高探索,优化策略时能区分不确定性和确定性。实验表明,该算法在已知惩罚的情况下能加速学习,并且适用于现有的基于模型的加强学习算法。

🎯

关键要点

  • 提出了一种基于模型的加强学习算法(H-UCRL)。

  • 通过加强输入空间和利用先验不确定性来提高探索。

  • 优化策略时能够区分先验不确定性和先验确定性。

  • 分析了 H-UCRL 的一般后悔界,并构建了可证明的次线性界。

  • 乐观探索可以与最先进的强化学习算法及不同的概率模型相结合。

  • 实验表明该算法在已知惩罚情况下显著加速学习。

  • 该算法在现有的基于模型的加强学习算法中具有广泛适用性。

➡️

继续阅读