利用混淆和选择偏倚离线数据强化改进赌博算法:一种因果方法
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本研究通过优化问题将上下文马尔可夫决策过程中的迁移学习问题转化为因果效应识别问题,并通过线性规划获得因果模型和因果边界。实验证明该方法在函数逼近任务中处理上下文分布更好,收敛速度更快。模拟实验证明了该策略在数据稀缺且成本高昂的实际应用中提高了性能。
🎯
关键要点
- 研究了部分可观察环境下的上下文马尔可夫决策过程中的迁移学习问题。
- 将迁移学习问题转化为识别动作和奖励之间因果效应的问题。
- 通过线性规划获得相容的因果模型和因果边界。
- 采样算法提供适宜的采样分布的收敛结果。
- 因果边界应用于改进传统的贝叶斯增强算法。
- 方法在函数逼近任务中处理一般上下文分布,改善了对函数空间大小的依赖性。
- 因果增强算法优于传统的贝叶斯增强算法,收敛速度更快。
- 模拟实验证明策略在数据稀缺且成本高昂的实际应用中提高性能。
➡️