绕过指数依赖:循环变压器通过多步梯度下降有效学习上下文
原文中文,约600字,阅读约需2分钟。发表于: 。本研究解决了循环变压器在进行上下文学习时对输入示例数量的指数需求。论文提出,线性循环变压器能够在上下文学习中高效实现多步梯度下降,只需输入数据具有恒定条件数即可达到低误差。研究结果显示变压器在上下文学习能力上超出以往理解,为大型语言模型的高效推理算法设计提供了新思路。
研究发现,Transformer在简单任务上表现良好,但在复杂任务上性能下降。无注意力模型在某些任务上表现相似。提供教学序列时,Transformer学习更高效,并能自适应选择算法。预训练的大语言模型在新任务上表现出色,与最近邻基线相当。