动量优化器在机器学习中非常重要,通常依赖于梯度的指数移动平均(EMA)。本文质疑单一EMA的有效性,提出了AdEMAMix,通过混合两个EMA更有效地利用历史梯度。实验结果表明,梯度在数万步内仍然相关,能够加速收敛、降低损失,并显著减缓模型遗忘。
该研究提出了一种通过离散键值瓶颈实现局部更新的方法,以解决持续学习中的模型遗忘问题,有效减轻灾难性遗忘,并在多个NLP场景中表现出竞争力。
本文探讨了自注意力机制的神经网络模型(如Transformer)在联邦学习中的应用,特别是在处理异构数据时的性能改进。研究提出了多种新方法,如Federated Knowledge Anchor (FedKA),以解决模型遗忘问题并提高准确性。实验结果表明,这些方法在医学数据集上表现优越,有效应对数据异质性带来的挑战。
本文提出了一种新型增量学习方案,通过神经网络原型匹配、特征稀疏化和对比学习,解决了模型在学习新任务时遗忘旧任务的问题。该方案在Pascal VOC2012和ADE20K数据集上表现出显著的准确性,优于现有技术。
完成下面两步后,将自动完成登录并继续当前操作。