小红花·文摘

The JetBrains Blog ·

本文研究了多维动作下的离线策略评估问题，特别是在推荐系统和用户界面优化中的应用。提出了一种改进的无偏估计器，并验证了其在真实和合成数据中的有效性。同时，针对未观测条件变量导致的偏差，提出了新算法CAP以优化策略。实验结果表明，该方法在策略评估中优于传统方法。

BriefGPT - AI 论文速递 ·