动量优化器在机器学习中非常重要,通常依赖于梯度的指数移动平均(EMA)。本文质疑单一EMA的有效性,提出了AdEMAMix,通过混合两个EMA更有效地利用历史梯度。实验结果表明,梯度在数万步内仍然相关,能够加速收敛、降低损失,并显著减缓模型遗忘。
该研究提出了一种通过离散键值瓶颈实现局部更新的方法,以解决持续学习中的模型遗忘问题,有效减轻灾难性遗忘,并在多个NLP场景中表现出竞争力。
本研究提出了一种新颖的对齐特征隔离方法,以解决增量人脸伪造检测中的模型遗忘问题。通过堆叠旧任务与新任务的特征分布,保护已学习的信息,实验结果验证了该方法的有效性。
完成下面两步后,将自动完成登录并继续当前操作。