Benign Overfitting in Single-Head Attention
原文英文,约100词,阅读约需1分钟。发表于: 。本研究探讨了在单头softmax注意力模型中出现的良性过拟合现象,该模型是变换器的基本构件。研究表明,在适当条件下,该模型在分类设置中经过两步梯度下降便表现出良性过拟合,且发现信号与噪声比(SNR)对过拟合行为的影响,确定了足够大的SNR是良性过拟合的必要和充分条件。
研究发现,单头softmax注意力模型在分类任务中经过两步梯度下降后可以出现良性过拟合。信号与噪声比(SNR)对过拟合有影响,且足够大的SNR是实现良性过拟合的必要条件。