该论文介绍了一种基于特性映射的新算法,能够以线性方式参数化转移核函数来处理强化学习中的大状态和行动空间。该算法在一些强化学习问题中能够取得多项式的最优后悔值,且总体上是近乎最优的。
完成下面两步后,将自动完成登录并继续当前操作。