利用袋装决策时间中的因果关系进行强化学习
发表于: 。本研究解决了在袋装决策时间下的强化学习(RL)中的非马尔可夫和非平稳转移动态问题,采用专家提供的因果有向无环图构建状态。通过构建动态贝叶斯充分统计量,我们的在线RL算法在处理周期性马尔可夫决策过程时展示了极大的优化潜力,评估结果基于真实的移动健康临床试验数据,表明该方法有效。
本研究解决了在袋装决策时间下的强化学习(RL)中的非马尔可夫和非平稳转移动态问题,采用专家提供的因果有向无环图构建状态。通过构建动态贝叶斯充分统计量,我们的在线RL算法在处理周期性马尔可夫决策过程时展示了极大的优化潜力,评估结果基于真实的移动健康临床试验数据,表明该方法有效。