BriefGPT - AI 论文速递 ·

可证明有效的无限时间平均奖励强化学习与线性函数逼近

💡 原文中文，约1800字，阅读约需5分钟。

📝

内容提要

本文提出了两种无模型强化学习算法，针对无限时间平均回报的马尔可夫决策过程（MDP）问题。第一种算法在弱通信MDP中简化为折扣回报，遗憾为O(T^(2/3))；第二种算法改进至O(sqrt(T))，但需要更强的遍历条件。这些算法在计算效率和遗憾最小化方面取得了显著进展。

🎯

❓

文章提出了两种无模型强化学习算法，分别针对无限时间平均回报的马尔可夫决策过程（MDP）问题。第一种算法在弱相互通信的MDP中简化为折扣回报，第二种算法则改进至O(sqrt(T))。

第一种算法在弱相互通信的MDP中，遗憾为O(T^(2/3))。

第二种算法将遗憾改进至O(sqrt(T))，但需要更强的遍历条件。

第二种算法的结果取代了2019年Abbasi-Yadkori等人提出的在符合人类定义的遍历条件下的O(T^(3/4))遗憾。

这两种算法在计算效率和遗憾最小化方面取得了显著进展。

第二种算法需要更强的遍历条件才能实现O(sqrt(T))的遗憾。

🏷️