本文介绍了一种连续离线强化学习的实用范例,用于前向转移和减轻灾难性遗忘。通过双生成重播框架,保留先前的知识。实验证明该方法在前向转移方面效果更好,并且样本重放的保真度高。
完成下面两步后,将自动完成登录并继续当前操作。