该文介绍了一种置信度感知的双向离线模型想象算法,通过扩充离线数据集来增强在线学习的推广能力。实验结果表明,该算法显著提高了现有模型无关的线下 RL 算法的性能,并与基线方法相比获得了竞争性或更好的得分。
完成下面两步后,将自动完成登录并继续当前操作。