MLP 可以成为优秀的 Transformer 学习器
原文中文,约400字,阅读约需1分钟。发表于: 。通过对非必要的 attention layers 进行选择性去除,本文提出了一种简化视觉 transformer 并减少计算负载的新策略,通过熵的考虑,将不具信息量的 attention layers 整合到相应的 MLP 中,实现仅在某些 transformer blocks 中使用 MLP,实验结果显示该方法可以提高 DeiT-B 的吞吐量和内存限制,并在不影响性能的情况下去除 40%...
本研究分析了变形器模型的表示能力和复杂度参数,并比较了其与其他架构的优势和劣势。结果显示,变形器的复杂性随输入规模的对数增长,而循环网络和前馈网络的复杂性随输入规模的增大多项式增长。研究还证明了变形器中大嵌入维度的必要性和作用。注意力层的复杂性在某些情况下会线性增长,但可以通过自然变种有效解决。证明技术强调了通信复杂度在变形器及其相关模型的分析中的价值。