小红花·文摘

本文提出了一种算法，旨在优化弱交流马尔可夫决策过程中的后悔率。该算法通过正则化最优偏差向量的跨度，在每个周期选择策略，展示了O(HSpAT)的后悔界限。此外，研究探讨了无模型强化学习算法的收敛性及其在平均奖励MDP中的应用，提出了多种有效算法，并分析了策略梯度方法的收敛速度和性能保证。