ScaLearn: 通过学习缩放实现简单且高效率的任务迁移
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
该文介绍了一种新的Transformer架构,包括条件注意机制和任务条件模块,以促进权重共享和减少数据不平衡的负面影响。该模型在GLUE和26个NLP任务中表现出了最先进的结果。
🎯
关键要点
-
提出了一种新的Transformer架构,包含条件注意机制和任务条件模块。
-
该架构旨在促进权重共享,提高参数共享的效率。
-
通过保持预训练模型的一半权重来缓解遗忘问题。
-
采用新的多任务数据采样策略以减少任务间数据不平衡的负面影响。
-
在GLUE上,八任务模型比其他Adapter方法提高了2.8%。
-
24任务模型在MTL和单任务微调中表现优异。
-
单个多任务模型在26个NLP任务中竞争,并在一些测试和开发集上取得了最先进的结果。
🏷️
标签
➡️