本文探讨了在马尔可夫决策过程(MDP)中应用强化学习的多种算法,重点在于最小化后悔值。研究提出了新算法,如PSRL和UCRL-Factored,显著提高了学习效率,并分析了不同条件下的遗憾界限。针对线性和非稳态MDP的算法优化了遗憾性能,并提出了新的结构性假设,以应对连续状态和动作空间的挑战。
本文研究虚拟功能部署问题,提出了一种基于多臂强盗理论的新算法。结果表明,该算法能快速学习最优部署策略,并在满足约束条件下,后悔值增长速率为$O( N M \\sqrt{T\ln T} )$,具有良好的实用性能和适度的计算复杂性。
该论文介绍了一种基于特性映射的新算法,能够以线性方式参数化转移核函数来处理强化学习中的大状态和行动空间。该算法在一些强化学习问题中能够取得多项式的最优后悔值,且总体上是近乎最优的。
完成下面两步后,将自动完成登录并继续当前操作。