研究发现,单头softmax注意力模型在分类任务中经过两步梯度下降后可以出现良性过拟合。信号与噪声比(SNR)对过拟合有影响,且足够大的SNR是实现良性过拟合的必要条件。
本研究首次揭示了注意力架构中标记选择的良性过拟合问题及其机制,重点研究线性模型和两层神经网络的收敛性,为后续研究提供新视角。
该论文研究了神经网络在有噪声的情况下如何拟合数据并防止测试性能严重下降,提出了'良性过拟合'与'温和过拟合'的新概念。论文还系统性地分析了这些概念在核回归和深度神经网络中的应用效果。
完成下面两步后,将自动完成登录并继续当前操作。