小红花·文摘

本文研究了Transformer模型在上下文学习中的应用，分析了样本复杂性、预训练任务多样性和上下文长度对上下文学习成功的影响。结果表明，随着预训练示例数量的增加，模型在低多样性下倾向于记忆训练任务，而在高多样性下能够实现真正的上下文学习。此外，提出了一种机制，使Transformer能够有效进行线性回归预测，并探讨了模型的贝叶斯最优性质及其在任务转移中的表现。