小红花·文摘

本文探讨了强化学习政策的时间解释，提出了时间策略分解（TPD）方法，通过期望未来结果（EFO）分解价值函数，揭示特定结果发生的时机，从而提升对政策的理解和奖励函数的优化。