DAPT:用于大型语言模型参数高效持续学习的双重注意力框架
原文中文,约300字,阅读约需1分钟。
📝
内容提要
提出了一种新颖的双注意力框架(DAPT),通过双注意力学习和选择模块,优化了鲁棒性防止灾难性遗忘和促进知识迁移的能力。实验证明,DAPT在抵抗灾难性遗忘和促进知识迁移方面优于现有方法。在不同模型大小和未见任务方面,DAPT也表现出优越性。
🎯
关键要点
-
提出了一种新颖的双注意力框架(DAPT)。
-
DAPT通过双注意力学习和选择模块优化鲁棒性,防止灾难性遗忘和促进知识迁移的能力。
-
大量实验表明,DAPT在抵抗灾难性遗忘和促进知识迁移方面优于现有方法。
-
DAPT在不同模型大小(从770M到11B)和未见任务方面也表现出优越性。
🏷️