小红花·文摘

本文介绍了自适应策略学习框架，融合离线学习与在线学习，通过乐观/贪心和悲观更新策略提高离线数据集质量。实验结果表明，该算法在离线数据集质量较差的情况下能高效学习。