一层 Softmax 注意力梯度流的隐性正则化
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
本研究探讨了多头softmax注意力模型在上下文学习多任务线性回归中的渐变流动动力学,并发现了有趣的“任务分配”现象。研究证明了梯度流在优化上的最佳性,为多头softmax注意力模型提供了第一个收敛结果。
🎯
关键要点
-
本研究探讨了多头softmax注意力模型在上下文学习多任务线性回归中的渐变流动动力学。
-
通过适当选择初始化,确定了梯度流的全局收敛性。
-
研究发现了有趣的“任务分配”现象,每个注意力头专注于解决单个任务。
-
梯度流动力学分为三个阶段:热身阶段、出现阶段和收敛阶段。
-
在热身阶段,损失减少较慢,注意力头逐渐倾向于各自的任务。
-
在出现阶段,每个头选择一个任务,损失迅速降低。
-
在收敛阶段,注意参数收敛到一个极限。
-
证明了梯度流在优化上的最佳性,学习到的极限模型与最佳的多头softmax注意力模型相当。
-
分析明确了单头和多头注意力模型在ICL的预测准确性方面的区别。
-
收敛分析的关键技术是将梯度流动力学映射到谱域中的常微分方程。
-
注意力权重的半奇特征值的相对大小决定了任务分配。
-
本研究为多头softmax注意力模型提供了第一个收敛结果。
🏷️
标签
➡️