BriefGPT - AI 论文速递 ·

将变压器视为所罗门夫归纳法的近似

💡 原文中文，约1600字，阅读约需4分钟。

📝

内容提要

本文探讨了Transformer模型在序列到序列函数逼近中的通用逼近性，分析了自注意力和前馈层的作用，提出了新的神经网络架构Sumformer，并比较了Transformer与广义状态空间模型在复制任务上的性能，结果表明Transformer在效率和泛化能力上表现更佳。

🎯

❓

Transformer模型具有连续排列等变序列到序列函数的通用逼近性，可以普遍逼近任意的连续序列到序列函数。

Sumformer是一种新的神经网络架构，可以近似等变序列到序列的函数，并在Linformer和Performer上实现了第一个通用的逼近结果。

实验表明，Transformer在需要复制上下文的合成任务上优于广义状态空间模型，在效率和泛化能力上表现更佳。

位置编码绕过了排列等变性的限制，使得Transformer能够处理连续序列到序列的函数。

Transformer在复制和检索上下文信息的任务上远远胜过状态空间模型，能够复制指数长度的字符串。

研究发现Transformer在语言模型方面存在局限性，尤其是在信息理论意义上的普适预测性和非渐近数据区域的性能。

🏷️