离线推荐系统在未观察到的混杂下的评估

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

该文介绍了一种通过数据策略辅助下的敏感性模型来估计批量强化学习应用中未被观察到的变量的方法。作者基于非凸投影梯度下降方法开发了一些近似,并在实证中演示了所得到的边界。

🎯

关键要点

  • 该文介绍了一种通过数据策略辅助的敏感性模型来估计批量强化学习中的未被观察到的变量。
  • 该方法针对教育和医疗等领域的应用,估计了无限时间阶段内给定策略值的尖锐边界。
  • 随着收集更多混淆数据,能够收敛于尖锐的边界。
  • 检查集合成员身份是一个线性规划问题,但支持功能涉及困难的非凸优化问题。
  • 作者基于非凸投影梯度下降方法开发了一些近似,并在实证中演示了所得到的边界。
➡️

继续阅读