变压器是最小最大最优的非参数上下文学习耠

本文研究了大型语言模型的上下文学习（ICL）在统计学习理论中的有效性，提出了变压器在非参数回归任务中的逼近和泛化误差界限。研究表明，经过充分训练的变压器不仅能够实现最小最大最优的估计风险，还能在上下文中提升表示能力，进而揭示任务多样性和表征学习在ICL中的关键作用。

研究发现，Transformer模型在上下文学习方面表现出近乎最优的能力，但在面对超出预训练数据领域的任务时，泛化能力会退化。研究结果强调了高容量序列模型的上下文学习能力与预训练数据组合的覆盖范围密切相关。