本文研究了多头softmax注意力模型在多任务线性回归中的梯度流动动力学,发现梯度流的全局收敛性及“任务分配”现象。分析表明,梯度流经历热身、出现和收敛三个阶段,优化效果与最佳模型相当。此外,探讨了自注意力机制的隐式偏差及其在分类任务中的应用,提出了新的稀疏注意力机制,提升了模型的可解释性和性能。
完成下面两步后,将自动完成登录并继续当前操作。