研究发现深度学习在持续学习中因“可塑性损失”表现不如浅层网络,尤其在深度强化学习中影响样本效率。通过数据增强提升视觉强化学习性能,关键在于Critic网络的可塑性损失。实验显示,训练早期的干预至关重要,否则损失不可逆。研究提出自适应回放比例方法,动态调整Critic网络的回放比例,改善样本利用效率。
完成下面两步后,将自动完成登录并继续当前操作。