本文介绍了自适应策略学习框架,融合离线学习与在线学习,通过乐观/贪心和悲观更新策略提高离线数据集质量。实验结果表明,该算法在离线数据集质量较差的情况下能高效学习。
完成下面两步后,将自动完成登录并继续当前操作。