OVD-Explorer:噪声环境中的探索不应仅仅是乐观的追求
本文提出了一种基于模型的加强学习算法(H-UCRL),通过加强输入空间和利用先验不确定性来提高探索,优化策略时能区分不确定性和确定性。实验表明,该算法在已知惩罚的情况下能加速学习,并且适用于现有的基于模型的加强学习算法。
原文中文,约300字,阅读约需1分钟。
本文提出了一种基于模型的加强学习算法(H-UCRL),通过加强输入空间和利用先验不确定性来提高探索,优化策略时能区分不确定性和确定性。实验表明,该算法在已知惩罚的情况下能加速学习,并且适用于现有的基于模型的加强学习算法。