自然语言处理中使用基于 Transformer 的多任务学习的挑战与机遇:一项调研
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
研究人员通过使用新的Transformer架构和任务条件模块实现了更有效的参数共享,并通过保持预训练模型的一半权重来缓解遗忘。他们还采用了新的多任务数据采样策略来减少任务之间数据不平衡的负面影响。在GLUE上,他们的八任务模型超过了其他Adapter方法2.8%,而他们的24任务模型在使用MTL和单任务微调的模型上表现优异。他们还展示了他们的单个多任务模型方法在26个NLP任务中竞争,并在一些测试和开发集上取得了最先进的结果。
🎯
关键要点
- 研究人员使用新的Transformer架构和条件注意机制实现了更有效的参数共享。
- 通过保持预训练模型的一半权重来缓解遗忘问题。
- 采用新的多任务数据采样策略以减少任务之间数据不平衡的负面影响。
- 在GLUE上,八任务模型超过其他Adapter方法2.8%。
- 24任务模型在MTL和单任务微调的模型上表现优异。
- 单个多任务模型在26个NLP任务中竞争,并在一些测试和开发集上取得最先进的结果。
➡️