持续扩散模型(CoD):通过经验重播掌握持续离线强化学习
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本文介绍了一种连续离线强化学习的实用范例,用于前向转移和减轻灾难性遗忘。通过双生成重播框架,保留先前的知识。实验证明该方法在前向转移方面效果更好,并且样本重放的保真度高。
🎯
关键要点
- 研究连续离线强化学习,旨在前向转移和减轻灾难性遗忘。
- 提出双生成重播框架,通过重播生成的伪数据保留先前知识。
- 将连续学习策略解耦为基于扩散的生成行为模型和多头行动评估模型。
- 训练任务条件的扩散模型以模拟过去任务的状态分布。
- 生成的状态与行为生成器的回应配对,以高保真度回放样本表示旧任务。
- 通过交错伪样本与新任务的真样本,不断更新状态和行为生成器。
- 通过行为克隆对多头评论者进行正则化,以减轻遗忘。
- 实验证明该方法在前向转移方面效果更好,样本重放保真度高。
➡️