本研究探讨了自注意力模型在序列映射中的普适逼近性,证明了两层自注意力和一层自注意力后接softmax函数能够逼近任意连续函数。
研究显示,变压器在序列映射中表现出强大能力。通过扩展RASP语言,证明变压器能计算一阶有理函数和多正则函数。B-RASP和S-RASP增强了计算能力,支持位置和算术运算。掩码平均硬注意力变压器可模拟S-RASP,证明变压器解码器具备图灵完备性。
完成下面两步后,将自动完成登录并继续当前操作。