关于注意力层的词敏感性理解：通过随机特征的研究

通过对随机特征的原型设定研究词敏感性，我们展示了注意力层在自然语言处理任务中具有较高的词敏感性，同时更好地理解了为何注意力层适用于这些任务，从而揭示出它相比其他激活函数（如 ReLU）具有的优势。同时，我们将词敏感性的结果转化为泛化界限，验证了随机注意力特征具有较高泛化能力的理论结果，并在 imdb 评论数据集中对 BERT-Base 词嵌入进行实证验证。

本研究分析了变形器模型的表示能力和复杂度参数，并比较了其与其他架构的优势和劣势。结果显示，变形器的复杂性随输入规模的对数增长，而循环网络和前馈网络的复杂性随输入规模的增大多项式增长。研究还证明了变形器中大嵌入维度的必要性和作用，以及通过自然变种有效解决注意力层的复杂性。证明技术强调了通信复杂度在变形器及其相关模型的分析中的价值。

优势劣势变形器模型复杂度参数大嵌入维度