本论文介绍了一种因果深度集框架,消除了关键结构假设,引入了置换不变性假设,提供了更灵活的估计方法。数值分析表明,该方法较现有算法更精确,提高了离线策略评估方法的实际适用性和效率。
该文介绍了针对强化学习中的离线策略评估(OPE)的实验基准和实证研究,提供了一个完整的基准套件以研究不同属性对方法性能的相互作用,并将结果总结为实践指南。
完成下面两步后,将自动完成登录并继续当前操作。