多任务训练如何影响 Transformer 的上下文能力?对功能类别的研究调查
原文中文,约300字,阅读约需1分钟。发表于: 。结合多任务学习和上下文学习,在大型语言模型中提出了有效的课程学习策略,使得模型能够高效地学习任务并对分布外的例子具有稳定的收敛性。
研究探讨了Transformer模型在上下文中学习的能力,结果显示其在选择无监督模型和学习不同任务方面表现出优秀的能力。然而,当面对超出预训练数据领域的任务时,Transformer的泛化能力会退化。研究结果强调了高容量序列模型的上下文学习能力与预训练数据的覆盖范围相关。