小红花·文摘

本文提出了两种无模型强化学习算法，针对无限时间平均回报的马尔可夫决策过程（MDP）问题。第一种算法在弱通信MDP中简化为折扣回报，遗憾为O(T^(2/3))；第二种算法改进至O(sqrt(T))，但需要更强的遍历条件。这些算法在计算效率和遗憾最小化方面取得了显著进展。

BriefGPT - AI 论文速递 ·

本研究提出了一种新算法ATRPO，结合策略改善与深度强化学习，实验结果显示其在MuJoCo环境中优于传统TRPO算法。同时，研究探讨了公平性、长期平均目标及奖励学习的优化问题，提出了多种改进算法和理论框架，强调了在强化学习中考虑平均回报的重要性。

BriefGPT - AI 论文速递 ·

本文研究了无限时间段平均回报的马尔可夫决策过程（MDP），提出了一种基于策略梯度的算法，证明了其全局收敛性及后悔度为$ ilde { ext{O}}({T}^{3/4})$。此外，首次探讨了具有一般策略参数化的平均回报CMDP的遗憾和约束分析，提出了原始对偶的策略梯度算法，确保低遗憾和约束违反。

BriefGPT - AI 论文速递 ·