InterroGate: 学习共享、专精和修剪多任务学习的表示

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

通过使用新的Transformer架构和一组任务条件模块,实现了更有效的参数共享和减少任务之间数据不平衡的负面影响。在GLUE上,八任务模型超过了其他Adapter方法2.8%,24任务模型在使用MTL和单任务微调的模型上表现优异。在26个NLP任务中,单个多任务模型方法的较大变体取得了最先进的结果。

🎯

关键要点

  • 使用新的Transformer架构和条件注意机制促进权重共享。
  • 实现了更有效的参数共享,缓解遗忘问题。
  • 采用新的多任务数据采样策略,减少任务之间数据不平衡的负面影响。
  • 在GLUE上,八任务模型超过其他Adapter方法2.8%。
  • 24任务模型在MTL和单任务微调模型上表现优异。
  • 单个多任务模型方法的较大变体在26个NLP任务中取得最先进的结果。
🏷️

标签

➡️

继续阅读