小红花·文摘

本文研究了终身强化学习中的关键问题，发现DQN和Soft Actor Critic方法在只有百分之一的实验数据用于超参数调整的情况下表现不佳，而保持网络可塑性的算法措施表现出色。