半离线策略评估的反事实增强重要性采样
原文中文,约400字,阅读约需1分钟。发表于: 。在高风险领域应用强化学习中,使用观察数据进行定量和定性评估可以帮助从业者了解新策略的泛化性能。然而,这种离线数据评估受到困限,因为离线数据可能无法反映由新策略应用导致的分布偏移。本研究中,我们提出了一种半离线评估框架,作为离线和在线评估之间的中间步骤,其中人工用户提供未观察到的反事实轨迹的注释。我们设计了一族基于重要性采样和新颖加权方案的离线数据评估估计器,其能够纳入反事实注释而不引入额外偏...
本研究提出了一种半离线评估框架,用于在高风险领域应用强化学习中评估新策略的泛化性能。该框架结合了离线和在线评估之间的中间步骤,人工用户提供未观察到的反事实轨迹的注释。研究设计了一族基于重要性采样和新颖加权方案的离线数据评估估计器,其能够纳入反事实注释而不引入额外偏差。实验结果表明,该方法优于纯离线重要性采样估计器,并且对于不完美的注释具有鲁棒性。