小红花·文摘

本文探讨了Transformer模型在序列到序列函数逼近中的通用逼近性，分析了自注意力和前馈层的作用，提出了新的神经网络架构Sumformer，并比较了Transformer与广义状态空间模型在复制任务上的性能，结果表明Transformer在效率和泛化能力上表现更佳。