一层 Softmax 注意力梯度流的隐性正则化

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

本研究探讨了多头softmax注意力模型在上下文学习多任务线性回归中的渐变流动动力学,并发现了有趣的“任务分配”现象。研究证明了梯度流在优化上的最佳性,为多头softmax注意力模型提供了第一个收敛结果。

🎯

关键要点

  • 本研究探讨了多头softmax注意力模型在上下文学习多任务线性回归中的渐变流动动力学。

  • 通过适当选择初始化,确定了梯度流的全局收敛性。

  • 研究发现了有趣的“任务分配”现象,每个注意力头专注于解决单个任务。

  • 梯度流动力学分为三个阶段:热身阶段、出现阶段和收敛阶段。

  • 在热身阶段,损失减少较慢,注意力头逐渐倾向于各自的任务。

  • 在出现阶段,每个头选择一个任务,损失迅速降低。

  • 在收敛阶段,注意参数收敛到一个极限。

  • 证明了梯度流在优化上的最佳性,学习到的极限模型与最佳的多头softmax注意力模型相当。

  • 分析明确了单头和多头注意力模型在ICL的预测准确性方面的区别。

  • 收敛分析的关键技术是将梯度流动力学映射到谱域中的常微分方程。

  • 注意力权重的半奇特征值的相对大小决定了任务分配。

  • 本研究为多头softmax注意力模型提供了第一个收敛结果。

➡️

继续阅读