本文研究了强化学习中策略梯度的内隐偏差,发现其对于训练过的初始状态的外推程度取决于系统在这些初始状态下的探索程度。通过理论和实验证实了该结论,并推测通过开发针对初始状态的有信息选择方法,可以显著改进现实世界的最优控制问题。
完成下面两步后,将自动完成登录并继续当前操作。