光滑 MDPs 中的无悔强化学习

为了解决在连续状态和 / 或动作空间中得到强化学习（RL）无后悔保证仍然是该领域的主要挑战之一，本论文引入了一种新的结构性假设，即 $u-$ 平滑性，它概括了迄今已提出的大多数设置（如线性 MDPs 和 Lipschitz MDPs），我们提出了两种算法，在 $u-$ 平滑 MDPs 中对后悔进行最小化，这两种算法都建立在利用基于 Legendre 多项式的正交特征映射来构建 MDP...

本论文提出了一种新的结构性假设，即$u-$平滑性，用于解决强化学习中的无后悔保证挑战。作者提出了两种算法，extsc {Legendre-Eleanor}和extsc {Legendre-LSVI}，用于在$u-$平滑 MDPs中最小化后悔。结果表明这些算法达到了最佳保证。

$u-$平滑性强化学习无后悔保证算法结构性假设