该文介绍了针对强化学习中的离线策略评估(OPE)的实验基准和实证研究,提供了一个完整的基准套件以研究不同属性对方法性能的相互作用,并将结果总结为实践指南。
完成下面两步后,将自动完成登录并继续当前操作。