半离线策略评估的反事实增强重要性采样

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本研究提出了一种半离线评估框架,用于在高风险领域应用强化学习中评估新策略的泛化性能。该框架结合了离线和在线评估之间的中间步骤,人工用户提供未观察到的反事实轨迹的注释。研究设计了一族基于重要性采样和新颖加权方案的离线数据评估估计器,其能够纳入反事实注释而不引入额外偏差。实验结果表明,该方法优于纯离线重要性采样估计器,并且对于不完美的注释具有鲁棒性。

🎯

关键要点

  • 本研究提出了一种半离线评估框架,用于评估高风险领域中强化学习新策略的泛化性能。

  • 该框架结合了离线和在线评估之间的中间步骤,人工用户提供未观察到的反事实轨迹的注释。

  • 研究设计了一族基于重要性采样和新颖加权方案的离线数据评估估计器,能够纳入反事实注释而不引入额外偏差。

  • 理论分析表明,该方法在减少偏差和方差方面优于标准重要性采样估计器。

  • 通过概念验证实验,证明该方法在赌博机和医疗模拟器中优于纯离线重要性采样估计器,并且对不完美的注释具有鲁棒性。

  • 结合人性化的注释收集策略,该框架可以实现强化学习在高风险领域的应用。

➡️

继续阅读