线性回归的上下文学习需要多少预训练任务?
原文中文,约2700字,阅读约需7分钟。发表于: 。在这篇论文中,我们研究了通过预训练线性参数化的单层线性注意力模型进行具有高斯先验的线性回归的上下文学习(ICL),在一个最简单的设置中进行 ICL 研究。我们建立了注意力模型预训练的统计任务复杂性界限,证明了有效的预训练只需要少量独立任务。此外,我们证明了预训练模型与贝叶斯最优算法高度匹配,即在固定上下文长度下,在未见任务上实现几乎贝叶斯最优风险。这些理论发现补充了先前的实验研究,并阐明了...
本文研究了预训练的注意力模型在具有高斯先验的线性回归的上下文学习中的能力。研究表明,有效的预训练只需要少量独立任务,预训练模型与贝叶斯最优算法高度匹配,在未见任务上实现几乎贝叶斯最优风险。这些理论发现补充了先前的实验研究,并阐明了ICL的统计基础。