估计记录策略的双重稳健离线策略评估
原文中文,约300字,阅读约需1分钟。发表于: 。该研究介绍了一种新的双鲁棒离策评估(OPE)估计器,用于未知的日志策略和价值函数情况下,能估计产生半参数下界的最小渐近方差。
本文研究了基于离线的评估方法,通过分层抽样生成固定大小的数据集。通过找到具有最小方差的多个记录器的估计器,解决了此困境,并提出了一个能够实现效率界限的估计器。同时,提出了一种选择控制变量的方法,以防止误工。实验证明了该方法有效利用了多个记录器的数据。
该研究介绍了一种新的双鲁棒离策评估(OPE)估计器,用于未知的日志策略和价值函数情况下,能估计产生半参数下界的最小渐近方差。
本文研究了基于离线的评估方法,通过分层抽样生成固定大小的数据集。通过找到具有最小方差的多个记录器的估计器,解决了此困境,并提出了一个能够实现效率界限的估计器。同时,提出了一种选择控制变量的方法,以防止误工。实验证明了该方法有效利用了多个记录器的数据。