在线估计和推断:强化学习中鲁棒政策评估
原文中文,约300字,阅读约需1分钟。发表于: 。我们在强化学习中开发了一种在线鲁棒的策略评估过程,并基于其巴哈多表示建立了我们估计器的极限分布。此外,我们还开发了一种完全在线的过程,以基于渐近分布进行高效的统计推断。本文将鲁棒统计与强化学习中的统计推断联系起来,为策略评估提供了一种更多功能和可靠性的方法。最后,我们通过在真实世界的强化学习实验中进行数值实验来验证我们算法的有效性。
该文介绍了一种在线鲁棒的策略评估过程,基于巴哈多表示建立了估计器的极限分布,并开发了一种完全在线的过程,以基于渐近分布进行高效的统计推断。该方法将鲁棒统计与强化学习中的统计推断联系起来,为策略评估提供了更可靠的方法。数值实验验证了该算法的有效性。