光滑 MDPs 中的无悔强化学习
原文中文,约500字,阅读约需2分钟。发表于: 。为了解决在连续状态和 / 或动作空间中得到强化学习(RL)无后悔保证仍然是该领域的主要挑战之一,本论文引入了一种新的结构性假设,即 $u-$ 平滑性,它概括了迄今已提出的大多数设置(如线性 MDPs 和 Lipschitz MDPs),我们提出了两种算法,在 $u-$ 平滑 MDPs 中对后悔进行最小化,这两种算法都建立在利用基于 Legendre 多项式的正交特征映射来构建 MDP...
本论文提出了一种新的结构性假设,即$u-$平滑性,用于解决强化学习中的无后悔保证挑战。作者提出了两种算法,extsc {Legendre-Eleanor}和extsc {Legendre-LSVI},用于在$u-$平滑 MDPs中最小化后悔。结果表明这些算法达到了最佳保证。