多头 Softmax 注意力的上下文学习训练动态:出现、收敛和最优性

💡 原文中文,约600字,阅读约需2分钟。
📝

内容提要

本研究探讨了多头softmax注意力模型在上下文学习多任务线性回归中的渐变流动动力学,并发现了有趣的“任务分配”现象。研究证明了梯度流在优化上的最佳性,为多头softmax注意力模型提供了第一个收敛结果。

🎯

关键要点

  • 本研究探讨了多头softmax注意力模型在上下文学习多任务线性回归中的渐变流动动力学。
  • 通过适当选择初始化,确定了梯度流的全局收敛性。
  • 研究发现了有趣的“任务分配”现象,每个注意力头专注于解决单个任务。
  • 梯度流动力学分为三个阶段:热身阶段、出现阶段和收敛阶段。
  • 在热身阶段,损失减少较慢,注意力头逐渐倾向于各自的任务。
  • 在出现阶段,每个头选择一个任务,损失迅速降低。
  • 在收敛阶段,注意参数收敛到一个极限。
  • 证明了梯度流在优化上的最佳性,学习到的极限模型与最佳模型相当,仅相差一个常数因子。
  • 分析明确了单头和多头注意力模型在ICL预测准确性方面的区别。
  • 研究为多头softmax注意力模型提供了第一个收敛结果。
➡️

继续阅读