本文提出了一种新颖的演员-评论者算法,有效解决了策略评估和优化中的样本复杂度问题,能够以较低的样本复杂度实现$ ext{ε}$-最优策略,尤其在离线数据中表现突出。
完成下面两步后,将自动完成登录并继续当前操作。