通过最优输运传播的蒙特卡洛树搜索
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
本文提出了一种适用于高度随机和部分可观察的马尔可夫决策过程的新备份策略,采用概率方法建模值节点和动作值节点为高斯分布,并引入一种新的备份运算符,将不确定性传播到根节点。该备份运算符与乐观选择和汤普森抽样相结合,得到了Wasserstein MCTS算法。实验结果表明,该方法优于相关基准。
🎯
关键要点
- 本文提出了一种新的备份策略,适用于高度随机和部分可观察的马尔可夫决策过程。
- 采用概率方法将值节点和动作值节点建模为高斯分布。
- 引入了一种新的备份运算符,将值节点计算为其动作值子节点的Wasserstein重心。
- 新备份运算符将估计的不确定性传播到根节点。
- 研究了L^1-Wasserstein重心与α-分歧的组合,显示与广义平均备份运算符的显著联系。
- 将概率备份运算符与乐观选择和汤普森抽样相结合,形成Wasserstein MCTS算法。
- 在多个随机和部分可观察环境中提供了渐近收敛到最优策略的理论保证。
- 实证评估结果表明该方法优于相关基准。
🏷️
标签
➡️