小红花·文摘

本文研究了上下文马尔可夫决策过程中的迁移学习问题，并通过优化问题将其转化为因果效应的识别问题。通过线性规划求解得到因果模型，并考虑估计误差得到因果边界。采样算法提供了适宜的采样分布的收敛结果，并将因果边界应用于改进贝叶斯增强算法。与以往文献相比，该方法在函数逼近任务中可以处理一般的上下文分布，改善了对函数空间大小的依赖性。通过模拟实验证明了该方法的高效性和性能提升。