小红花·文摘

该文介绍了一种在线鲁棒的策略评估过程，基于巴哈多表示建立了估计器的极限分布，并开发了一种完全在线的过程，以基于渐近分布进行高效的统计推断。该方法将鲁棒统计与强化学习中的统计推断联系起来，为策略评估提供了更可靠的方法。数值实验验证了该算法的有效性。