小红花·文摘

该文介绍了一种置信度感知的双向离线模型想象算法，通过扩充离线数据集来增强在线学习的推广能力。实验结果表明，该算法显著提高了现有模型无关的线下 RL 算法的性能，并与基线方法相比获得了竞争性或更好的得分。