针对未知情况的调整:重新审视终身强化学习的评估策略
原文中文,约300字,阅读约需1分钟。发表于: 。本文研究了终身强化学习中的关键问题,通过新的调优和评估方法,在只有百分之一的实验数据用于超参数调整的情况下,发现 DQN 和 Soft Actor Critic 方法表现不佳,而一些保持网络可塑性的算法措施表现出色,并且网络不断学习的能力与百分之一调优下的性能关联密切。
本文研究了终身强化学习中的关键问题,发现DQN和Soft Actor Critic方法在只有百分之一的实验数据用于超参数调整的情况下表现不佳,而保持网络可塑性的算法措施表现出色。