估计记录策略的双重稳健离线策略评估

BriefGPT - AI 论文速递 BriefGPT - AI 论文速递 ·

本文研究了基于离线的评估方法,通过分层抽样生成固定大小的数据集。通过找到具有最小方差的多个记录器的估计器,解决了此困境,并提出了一个能够实现效率界限的估计器。同时,提出了一种选择控制变量的方法,以防止误工。实验证明了该方法有效利用了多个记录器的数据。

原文中文,约300字,阅读约需1分钟。
阅读原文