本文研究了多维动作下的离线策略评估问题,特别是在推荐系统和用户界面优化中的应用。提出了一种改进的无偏估计器,并验证了其在真实和合成数据中的有效性。同时,针对未观测条件变量导致的偏差,提出了新算法CAP以优化策略。实验结果表明,该方法在策略评估中优于传统方法。
完成下面两步后,将自动完成登录并继续当前操作。