InterroGate: 学习共享、专精和修剪多任务学习的表示
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
通过使用新的Transformer架构和一组任务条件模块,实现了更有效的参数共享和减少任务之间数据不平衡的负面影响。在GLUE上,八任务模型超过了其他Adapter方法2.8%,24任务模型在使用MTL和单任务微调的模型上表现优异。在26个NLP任务中,单个多任务模型方法的较大变体取得了最先进的结果。
🎯
关键要点
- 使用新的Transformer架构和条件注意机制促进权重共享。
- 实现了更有效的参数共享,缓解遗忘问题。
- 采用新的多任务数据采样策略,减少任务之间数据不平衡的负面影响。
- 在GLUE上,八任务模型超过其他Adapter方法2.8%。
- 24任务模型在MTL和单任务微调模型上表现优异。
- 单个多任务模型方法的较大变体在26个NLP任务中取得最先进的结果。
🏷️
标签
➡️