本文提出了一种名为MRDR的鲁棒Doubly Robust估计方法,旨在解决强化学习中的离策略评估问题。该方法通过最小化方差,在上下文决策和强化学习基准中展现出强一致性和渐进最优性。此外,研究探讨了多种算法和方法,以提高离线策略评估的样本效率和准确性。
该研究提出了基于动作嵌入的边际化逆向倾向评分来减少离策略评估中估计器的方差,并提出了双重稳健估计器来提高准确性。经验实验证实了该方法的卓越性。
完成下面两步后,将自动完成登录并继续当前操作。