通过策略卷积进行大动作空间的离策度量

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

该研究提出了基于动作嵌入的边际化逆向倾向评分来减少离策略评估中估计器的方差,并提出了双重稳健估计器来提高准确性。经验实验证实了该方法的卓越性。

🎯

关键要点

  • 研究了具有大动作空间的离策略评估 (OPE) 的情境赌博设置。
  • 基准估计器在偏差和方差权衡中存在困难。
  • 提出了基于动作嵌入的边际化逆向倾向评分 (MIPS) 来减少估计器的方差。
  • 提出了 MIPS 的双重稳健估计器 (MDR) 来提高估计器的准确性。
  • 理论分析表明,所提出的估计器在比 MIPS 更弱的假设下是无偏的。
  • MIPS 的主要优势是保持对 IPS 的方差减少。
  • 经验实验证实了 MDR 对现有估计器的卓越性。
➡️

继续阅读