小红花·文摘

本研究探讨了多头softmax注意力模型在上下文学习多任务线性回归中的渐变流动动力学，并发现了有趣的“任务分配”现象。研究证明了梯度流在优化上的最佳性，为多头softmax注意力模型提供了第一个收敛结果。