小红花·文摘

本文研究了马尔可夫决策过程（MDP）中累积奖励的集中性特性，提出了一种统一的方法，适用于无限期和有限期设置，揭示了不同策略间的奖励差异及其对学习策略后悔率的影响。