利用混淆和选择偏倚离线数据强化改进赌博算法:一种因果方法
原文约400字/词,阅读约需1分钟。发表于: 。在这篇论文中,我们研究了一个代理在在线学习阶段利用离线数据来提高每个动作奖励分布估计的困境。我们从因果结构的角度出发,将这个问题分为混淆偏差和选择偏差,并从有偏观测数据中提取鲁棒的因果边界。这些边界包含了真实的平均奖励,并能有效地指导代理学习几乎最优的决策策略。同时,我们进行了上下文和非上下文赌博机环境下的遗憾分析,并展示了先前的因果边界可以帮助持续减少渐近遗憾。
本研究通过优化问题将上下文马尔可夫决策过程中的迁移学习问题转化为因果效应识别问题,并通过线性规划获得因果模型和因果边界。实验证明该方法在函数逼近任务中处理上下文分布更好,收敛速度更快。模拟实验证明了该策略在数据稀缺且成本高昂的实际应用中提高了性能。