揭秘线性MDP和新颖的动态聚合框架

本研究解决了线性MDP中的特征维数与状态空间大小和可直接到达状态数量之间的限制问题，提出了一种基于动态的结构聚合框架，并设计了一种高效的层次强化学习算法，利用聚合的子结构展现出统计效率。研究结果表明，在大多数具有层次结构的实际环境中，算法可显著改善后悔界限，从而提供了线性函数逼近的首个具有可证明保证的HRL算法。

本文提出了一种新的$u-$平滑性假设，以解决强化学习中的无后悔保证问题。提出了两种算法：Legendre-Eleanor和Legendre-LSVI，前者在弱假设下实现无后悔但效率较低，后者适用于小规模问题且运行时间为多项式级别。分析表明，这些算法在后悔性能上达到了最佳保证。

Legendre-Eleanor Legendre-LSVI u-平滑性强化学习无后悔保证