针对离线策略上下文主动学习任务的最佳基线修正
原文中文,约200字,阅读约需1分钟。发表于: 。将离线学习范式应用于推荐系统和排名应用,提出一个统一的框架,采用等效的均衡基准修正方法来减少估计方差,从而得到方差最优的无偏估计器。
本研究旨在研究离线政策评估问题,通过使用另一政策收集的数据来估算目标政策的价值。提出的SWITCH estimator可以实现更好的偏差-方差平衡,从而在多个数据集上表现更好。
将离线学习范式应用于推荐系统和排名应用,提出一个统一的框架,采用等效的均衡基准修正方法来减少估计方差,从而得到方差最优的无偏估计器。
本研究旨在研究离线政策评估问题,通过使用另一政策收集的数据来估算目标政策的价值。提出的SWITCH estimator可以实现更好的偏差-方差平衡,从而在多个数据集上表现更好。