小红花·文摘

本文介绍了一种连续离线强化学习的实用范例，用于前向转移和减轻灾难性遗忘。通过双生成重播框架，保留先前的知识。实验证明该方法在前向转移方面效果更好，并且样本重放的保真度高。