本文探讨了Transformer模型在序列到序列函数逼近中的通用逼近性,分析了自注意力和前馈层的作用,提出了新的神经网络架构Sumformer,并比较了Transformer与广义状态空间模型在复制任务上的性能,结果表明Transformer在效率和泛化能力上表现更佳。
完成下面两步后,将自动完成登录并继续当前操作。