OVD-Explorer：噪声环境中的探索不应仅仅是乐观的追求

在探索嘈杂环境中，乐观导向探索为基础，对高噪声区域的过度探测进行了缓解，提出了一种噪声感知的乐观探索方法－OVD-Explorer，通过梯度上升推动探索，在连续控制强化学习任务中取得了优越的结果。

本文提出了一种基于模型的加强学习算法（H-UCRL），通过加强输入空间和利用先验不确定性来提高探索，优化策略时能区分不确定性和确定性。实验表明，该算法在已知惩罚的情况下能加速学习，并且适用于现有的基于模型的加强学习算法。