关于未来依赖值函数中未来与历史的诅咒对于离策略评估的影响
原文中文,约300字,阅读约需1分钟。发表于: 。我们研究部分可观察环境中的离策略评估(OPE),旨在开发其保证不依赖于时间跨度的估算器。我们发现了与部分可观察马尔可夫决策过程(POMDP)结构相关的新覆盖假设和具有互补性质的新算法。
本研究提出了VA-OPE算法,通过使用值函数的方差信息提高离线策略评估的样本效率。算法对非时变线性MDPs中的Bellman残差进行重新加权,实现了更紧密的误差界限。实验结果支持了理论。
我们研究部分可观察环境中的离策略评估(OPE),旨在开发其保证不依赖于时间跨度的估算器。我们发现了与部分可观察马尔可夫决策过程(POMDP)结构相关的新覆盖假设和具有互补性质的新算法。
本研究提出了VA-OPE算法,通过使用值函数的方差信息提高离线策略评估的样本效率。算法对非时变线性MDPs中的Bellman残差进行重新加权,实现了更紧密的误差界限。实验结果支持了理论。