OVD-Explorer:噪声环境中的探索不应仅仅是乐观的追求
原文中文,约300字,阅读约需1分钟。发表于: 。在探索嘈杂环境中,乐观导向探索为基础,对高噪声区域的过度探测进行了缓解,提出了一种噪声感知的乐观探索方法-OVD-Explorer,通过梯度上升推动探索,在连续控制强化学习任务中取得了优越的结果。
本文提出了一种基于模型的加强学习算法(H-UCRL),通过加强输入空间和利用先验不确定性来提高探索,优化策略时能区分不确定性和确定性。实验表明,该算法在已知惩罚的情况下能加速学习,并且适用于现有的基于模型的加强学习算法。