本研究比较了变形器模型与其他架构的优势和劣势,发现变形器的复杂性随输入规模的对数增长,而循环网络和前馈网络的复杂性随输入规模的增大多项式增长。研究还证明了稀疏平均任务在变形器中的重要性,并提出了解决注意力层复杂性的方法。
完成下面两步后,将自动完成登录并继续当前操作。