本文提出了两种无模型强化学习算法,针对无限时间平均回报的马尔可夫决策过程(MDP)问题。第一种算法在弱通信MDP中简化为折扣回报,遗憾为O(T^(2/3));第二种算法改进至O(sqrt(T)),但需要更强的遍历条件。这些算法在计算效率和遗憾最小化方面取得了显著进展。
本研究提出了一种新算法ATRPO,结合策略改善与深度强化学习,实验结果显示其在MuJoCo环境中优于传统TRPO算法。同时,研究探讨了公平性、长期平均目标及奖励学习的优化问题,提出了多种改进算法和理论框架,强调了在强化学习中考虑平均回报的重要性。
本文研究了无限时间段平均回报的马尔可夫决策过程(MDP),提出了一种基于策略梯度的算法,证明了其全局收敛性及后悔度为$ ilde { ext{O}}({T}^{3/4})$。此外,首次探讨了具有一般策略参数化的平均回报CMDP的遗憾和约束分析,提出了原始对偶的策略梯度算法,确保低遗憾和约束违反。
完成下面两步后,将自动完成登录并继续当前操作。