平均奖励约束下有效的强化学习探索:通过后验抽样实现接近最优的遗憾
原文中文,约200字,阅读约需1分钟。发表于: 。基于后验抽样的新算法在无限时间视野下的有约束马尔科夫决策过程学习中实现了几乎最优的悔恨界限,并在实践中相比现有算法具有优势。
本文研究了连续状态动作空间中强化学习的基于模型的后验抽样(PSRL),提出了第一个后验抽样的遗憾上界,并开发了MPC–PSRL算法来选择动作,通过贝叶斯线性回归捕获模型中的不确定性,在基准连续控制任务中实现了最先进的样本效率,并与无模型算法的渐近性能相匹配。