单层变压器无法解决归纳头任务
内容提要
这篇论文探讨了Transformer模型的电路复杂度及其计算能力,证明了其在形式语言上的限制。研究表明,Transformer的复杂性与输入规模相关,自注意力层的数量影响推理能力。提出了新的计算方法以降低计算复杂度,提高大型语言模型的训练效率。
关键要点
-
研究了使用软饱和注意力机制的Transformer模型的电路复杂度,证明其能够被常数深度阈值电路模拟。
-
单层单注意头的解码器型Transformer架构在合理假定下是图灵完备的,词嵌入的稀疏性是图灵完备性持有的必要条件。
-
Transformer的复杂性随着输入规模的对数增长,而循环网络和前馈网络的复杂性随着输入规模的多项式增长。
-
增加中间生成的数量可以显著扩展Transformer解码器的计算能力,使其能够识别所有正则语言和上下文敏感语言。
-
通信复杂性是大型语言模型中幻觉的根本原因,Transformer层在函数的定义域足够大时无法进行函数组合。
-
自注意力层的数量可以高效地模拟常数通信轮次,证明对数深度对Transformer是足够的。
-
只有一个注意力层的Transformer在记忆方面表现出色,但在推理和泛化能力方面需要至少两个注意力层。
-
提出了一种新的快速梯度计算方法,能够在几乎线性时间内计算多层Transformer模型的梯度,显著降低计算复杂度。
延伸问答
Transformer模型的电路复杂度是什么?
Transformer模型的电路复杂度可以被常数深度阈值电路模拟,限制了其在形式语言上的能力。
单层单注意头的Transformer架构是否图灵完备?
在合理假定下,单层单注意头的解码器型Transformer架构是图灵完备的。
增加中间生成的数量对Transformer有什么影响?
增加中间生成的数量可以显著扩展Transformer解码器的计算能力,使其能够识别所有正则语言和上下文敏感语言。
自注意力层的数量对Transformer的推理能力有何影响?
只有一个注意力层的Transformer在记忆方面表现出色,但推理和泛化能力需要至少两个注意力层。
通信复杂性在大型语言模型中有什么作用?
通信复杂性是大型语言模型中幻觉的根本原因,影响Transformer层在函数组合中的能力。
如何降低Transformer模型的计算复杂度?
提出了一种新的快速梯度计算方法,能够在几乎线性时间内计算多层Transformer模型的梯度,从而显著降低计算复杂度。