BriefGPT - AI 论文速递 ·

针对离线策略上下文主动学习任务的最佳基线修正

💡 原文中文，约1400字，阅读约需4分钟。

📝

内容提要

本文研究了多维动作下的离线策略评估问题，特别是在推荐系统和用户界面优化中的应用。提出了一种改进的无偏估计器，并验证了其在真实和合成数据中的有效性。同时，针对未观测条件变量导致的偏差，提出了新算法CAP以优化策略。实验结果表明，该方法在策略评估中优于传统方法。

🎯

❓

离线策略评估用于从上下文 bandit 算法生成的日志数据中获取期望奖励，以优化推荐系统的性能。

CAP算法通过建立奖励函数和置信区间，优化策略以应对未观测条件变量导致的偏差。

改进的无偏估计器具有更好的风险收敛性，能够在真实和合成数据中表现出更高的有效性。

实验结果表明，改进的无偏估计器在真实和合成数据中均优于传统方法，验证了其有效性。

未观测条件变量会导致偏差和低效问题，从而影响策略评估的准确性。

通过控制变量，可以优化包括伪逆估计器在内的无偏估计器，从而提高其风险收敛性。

🏷️