本研究提出了一种半离线评估框架,用于在高风险领域应用强化学习中评估新策略的泛化性能。该框架结合了离线和在线评估之间的中间步骤,人工用户提供未观察到的反事实轨迹的注释。研究设计了一族基于重要性采样和新颖加权方案的离线数据评估估计器,其能够纳入反事实注释而不引入额外偏差。实验结果表明,该方法优于纯离线重要性采样估计器,并且对于不完美的注释具有鲁棒性。
完成下面两步后,将自动完成登录并继续当前操作。