贝尔曼误差中心化

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

本研究回顾了奖励中心化算法,区分了简单奖励中心化(SRC)和价值基础奖励中心化(VRC),并指出VRC实质上是贝尔曼误差中心化(BEC)。研究设计了两种收敛算法,并通过实验验证了其稳定性,为强化学习算法的扩展奠定了基础。

🎯

关键要点

  • 本研究回顾了奖励中心化算法。

  • 区分了简单奖励中心化(SRC)和价值基础奖励中心化(VRC)。

  • VRC实质上是贝尔曼误差中心化(BEC)。

  • 提供了表格值函数的中心点和线性值函数逼近的中心TD固定点。

  • 设计了两种收敛的算法。

  • 实验验证了这些算法的稳定性。

  • 为强化学习算法的扩展奠定了基础。

➡️

继续阅读