DAPT:用于大型语言模型参数高效持续学习的双重注意力框架
原文中文,约300字,阅读约需1分钟。发表于: 。提出一种新颖的双注意力框架(DAPT),通过双注意力学习和选择模块,对鲁棒性防止灾难性遗忘和促进知识迁移的能力进行了优化。对两个持续学习基准进行了大量实验,证明了 DAPT 相比于现有的方法在抵抗灾难性遗忘和促进知识迁移方面的优越性。此外,在不同的模型大小(从 770M 到 11B)和未见任务方面,DAPT 也表现出优越性。
提出了一种新颖的双注意力框架(DAPT),通过双注意力学习和选择模块,优化了鲁棒性防止灾难性遗忘和促进知识迁移的能力。实验证明,DAPT在抵抗灾难性遗忘和促进知识迁移方面优于现有方法。在不同模型大小和未见任务方面,DAPT也表现出优越性。