本研究提出差异注意力机制,通过计算两个独立softmax注意力图的差异,减少噪声,促进稀疏注意力模式,解决变换器在处理无关上下文时的注意力分配问题。实验表明,差异变换器在语言建模、长上下文建模和信息检索方面优于传统变换器。
完成下面两步后,将自动完成登录并继续当前操作。