小红花·文摘

本研究回顾了奖励中心化算法，区分了简单奖励中心化（SRC）和价值基础奖励中心化（VRC），并指出VRC实质上是贝尔曼误差中心化（BEC）。研究设计了两种收敛算法，并通过实验验证了其稳定性，为强化学习算法的扩展奠定了基础。