ScaLearn: 通过学习缩放实现简单且高效率的任务迁移

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

该文介绍了一种新的Transformer架构,包括条件注意机制和任务条件模块,以促进权重共享和减少数据不平衡的负面影响。该模型在GLUE和26个NLP任务中表现出了最先进的结果。

🎯

关键要点

  • 提出了一种新的Transformer架构,包含条件注意机制和任务条件模块。

  • 该架构旨在促进权重共享,提高参数共享的效率。

  • 通过保持预训练模型的一半权重来缓解遗忘问题。

  • 采用新的多任务数据采样策略以减少任务间数据不平衡的负面影响。

  • 在GLUE上,八任务模型比其他Adapter方法提高了2.8%。

  • 24任务模型在MTL和单任务微调中表现优异。

  • 单个多任务模型在26个NLP任务中竞争,并在一些测试和开发集上取得了最先进的结果。

➡️

继续阅读