小红花·文摘

研究人员通过使用新的Transformer架构和任务条件模块实现了更有效的参数共享，并通过保持预训练模型的一半权重来缓解遗忘。他们还采用了新的多任务数据采样策略来减少任务之间数据不平衡的负面影响。在GLUE上，他们的八任务模型超过了其他Adapter方法2.8％，而他们的24任务模型在使用MTL和单任务微调的模型上表现优异。他们还展示了他们的单个多任务模型方法在26个NLP任务中竞争，并在一些测试和开发集上取得了最先进的结果。