该文介绍了一种在线鲁棒的策略评估过程,基于巴哈多表示建立了估计器的极限分布,并开发了一种完全在线的过程,以基于渐近分布进行高效的统计推断。该方法将鲁棒统计与强化学习中的统计推断联系起来,为策略评估提供了更可靠的方法。数值实验验证了该算法的有效性。
完成下面两步后,将自动完成登录并继续当前操作。