线性注意力下上下文学习的渐近理论
原文中文,约400字,阅读约需1分钟。发表于: 。Transformers 在无需显式先前训练的情况下,基于输入示例学习和执行任务的能力,也称为上下文学习(ICL),是其成功的基础。本研究提供了关于所需样本复杂性、预训练任务多样性和上下文长度对成功 ICL 的明确答案,采用线性关注在 ICL...
这项研究证明了Transformers在上下文学习方面的成功基础。学习曲线具有双峰,模型在低和高任务多样性之间出现相变。在低多样性情况下,模型趋向于记忆训练任务,而在高多样性情况下,它实现了真正的上下文学习并在预训练任务范围之外进行泛化。