带有侧观测的随机图赌博学习

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文研究了上下文马尔可夫决策过程中的迁移学习问题,并通过优化问题将其转化为因果效应的识别问题。通过线性规划求解得到因果模型,并考虑估计误差得到因果边界。采样算法提供了适宜的采样分布的收敛结果,并将因果边界应用于改进贝叶斯增强算法。与以往文献相比,该方法在函数逼近任务中可以处理一般的上下文分布,改善了对函数空间大小的依赖性。通过模拟实验证明了该方法的高效性和性能提升。

🎯

关键要点

  • 研究了部分可观察环境下的上下文马尔可夫决策过程中的迁移学习问题。
  • 将迁移学习问题转化为识别动作和奖励之间因果效应的问题。
  • 通过线性规划顺序求解获得相容的因果模型,并考虑估计误差得到因果边界。
  • 采样算法提供适宜的采样分布的收敛结果。
  • 因果边界应用于改进传统的贝叶斯增强算法,分析动作集大小和函数空间的影响。
  • 方法在函数逼近任务中处理一般的上下文分布,改善了对函数空间大小的依赖性。
  • 正式证明因果增强算法优于传统的贝叶斯增强算法,收敛速度更快。
  • 模拟实验证明策略相对于当前最先进的方法的高效性,提升上下文马尔可夫决策过程的性能。
➡️

继续阅读