本研究探讨了多模态持续指令调优中的遗忘问题,提出了表层遗忘与基础遗忘的分类。通过答案样式多样化(ASD)和RegLoRA正则化技术,有效避免表层遗忘,提升模型在新任务学习中的表现。
本文探讨了联邦持续学习中的遗忘问题,提出在数据或任务不相关时,准确遗忘某些信息可以提升学习效果。通过引入“准确遗忘”概念,并基于生成重放的方法,定量评估先前知识的可信度,实验结果表明该方法优于基准模型。
本研究探讨了垂直联邦学习中的遗忘问题,提出了VFU-KD和VFU-GA方法,通过知识蒸馏和梯度上升实现遗忘,实验结果表明其优于重新训练,具有实用价值。
该研究针对多模态推荐模型中的表示不匹配和遗忘问题,提出了一种定制化训练方法,显著提升了推荐系统的性能和用户体验。
本研究提出了一种名为packetLSTM的动态LSTM方法,旨在针对流数据中的变化输入特征空间进行在线学习。该方法为每个输入特征设置专门的LSTM,并利用共享的全局内存,持续学习以缓解遗忘问题。packetLSTM在五个数据集上表现优异,且可扩展至其他RNN类型。
本研究提出一种新方法,通过调整训练权重和改变梯度方向,减少类增量学习中敏感群体的遗忘问题,提升群体公平性。实验表明,该方法在真实数据集上比现有方法更好地平衡准确性和公平性。
研究发现,使用简单组件和平衡的损失函数组合可以解决神经网络在新任务上的遗忘问题,并通过正则化程序改进了类增量学习的性能。在CIFAR-100和ImageNet上取得了国际领先的成果。
本研究通过引入替代经验重放(AER)和不对称平衡采样(ABS),解决了增量训练中的遗忘问题,提升了样本纯度和准确率。
通过对比KAN和MLP模型在各种任务中的性能,发现MLP通常优于KAN,尤其是在符号公式表示任务中。研究发现,KAN的优势主要来自其B样条激活函数,当B样条应用于MLP时,性能显著提高。然而,在其他任务中,B样条并没有显著提升MLP的性能。此外,在增量式持续学习环境中,KAN的遗忘问题比MLP更严重。这些结果为KAN和其他MLP替代方案的未来研究提供了启示。
研究发现带有LoRA的细调预训练语言模型存在遗忘问题,遗忘量与参数数量和更新步数呈移位幂律增长。无法通过停止或调整参数数量来避免遗忘。这为减轻遗忘问题的细调方案开辟了安全关键方向。
研究发现带有LoRA的细调预训练语言模型存在遗忘问题,遗忘量与参数数量和更新步数呈移位幂律增长。无法通过停止或调整参数数量来避免遗忘。这为减轻遗忘问题的细调方案提供了重要方向。
通过比较决策Transformer(DT)和基于演员-评论者结构与经验回放的现有方法,研究发现DT在学习效率、分布转移缓解和零-shot泛化方面具有优势,但在监督参数更新时会加剧遗忘问题。引入多头DT(MH-DT)和低秩自适应DT(LoRA-DT)以减轻遗忘问题。实验结果表明,该方法在增强学习能力和内存效率方面优于现有的CORL基准。
研究发现,细调预训练语言模型存在遗忘问题,特别是带有Low-Rank Adapters的模型。遗忘量与细调参数数量和更新步数呈移位幂律增长。无法通过提前停止或调整参数数量来避免遗忘问题。这为减轻遗忘问题的细调方案提供了重要的安全关键方向。
该研究探讨了深度神经网络的训练和网络参数之间的复杂动力学关系,发现训练网络往往沿着单一方向进行训练,被称为漂移模式。通过损失函数的二次势模型,解释了这种漂移模式,并提出其向潜在值的指数级缓慢衰减。通过奇异值分解,对权重矩阵进行了分解,以实用的方式识别 Hessian 内的关键方向,同时考虑其大小和曲率。最后,提出了一种有效的策略来缓解神经网络在学习新任务时遗忘之前任务知识的挑战。
该文章介绍了一种新的持续文本分类方法 InfoCL,通过快慢对比学习和当前-过去对比学习来进行互信息最大化,有效地减轻了遗忘问题,并在三个文本分类任务上达到了最先进的性能。
本文研究了神经网络持续学习中的遗忘问题,提出了遗忘优先微调和$k$-FPF两种方法,能显著提高效果并降低计算成本。实验表明$k$-FPF进一步提高了效率而不降低准确性。
本研究提出了一种名为 elephant 激活函数的新类别的激活函数,它能够生成稀疏表示和稀疏梯度,通过用 elephant 激活函数替换传统激活函数,可以显著提高神经网络对遗忘的韧性。该方法在回归、类递增学习和强化学习任务中都具有广泛的适用性和益处。
本文提出了一种针对无监督在线持续学习的新方法,通过对比学习增强内存使用,使用流依赖的数据增强及实现技巧,解决了持续学习中的遗忘问题,实现了与有监督方法相媲美的最新结果,为持续学习提供了有希望的策略。
完成下面两步后,将自动完成登录并继续当前操作。