局部线性性:无悔强化学习在连续马尔可夫决策过程中的关键
原文中文,约400字,阅读约需1分钟。发表于: 。本研究解决了连续状态和动作空间环境中无悔强化学习的重大挑战,指出现有方法存在的局限性。我们提出了“局部线性化马尔可夫决策过程”这一新概念,并引入了无悔算法Cinderella,证明其在已知可学习和可行的MDP家族中具备先进的后悔界限。此工作推动了无悔强化学习在连续MDP中的可行性和学习能力。
本文提出了一种新的$u-$平滑性假设,以解决强化学习中的无后悔保证问题。介绍了两种算法:Legendre-Eleanor和Legendre-LSVI,前者在弱假设下实现无后悔但效率较低,后者适用于小规模问题且运行时间为多项式级别。分析表明,两者在后悔性能上达到了最佳保证。