贝尔曼误差中心化
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
本研究回顾了奖励中心化算法,区分了简单奖励中心化(SRC)和价值基础奖励中心化(VRC),并指出VRC实质上是贝尔曼误差中心化(BEC)。研究设计了两种收敛算法,并通过实验验证了其稳定性,为强化学习算法的扩展奠定了基础。
🎯
关键要点
-
本研究回顾了奖励中心化算法。
-
区分了简单奖励中心化(SRC)和价值基础奖励中心化(VRC)。
-
VRC实质上是贝尔曼误差中心化(BEC)。
-
提供了表格值函数的中心点和线性值函数逼近的中心TD固定点。
-
设计了两种收敛的算法。
-
实验验证了这些算法的稳定性。
-
为强化学习算法的扩展奠定了基础。
➡️