本研究提出VeLU激活函数,通过动态调整输入方差和结合ArcTan-Sin变换,解决了ReLU在梯度流动和优化稳定性方面的不足,实验结果表明其在视觉基准测试中表现优异。
本研究提出了一种新层归一化策略Peri-LN,旨在解决变压器架构中的不足。Peri-LN在大规模训练中表现优异,能够有效平衡方差、改善梯度流动并提高收敛稳定性,具有潜在应用价值。
本文研究了多头softmax注意力模型在多任务线性回归中的梯度流动动力学,发现梯度流的全局收敛性及“任务分配”现象。分析表明,梯度流经历热身、出现和收敛三个阶段,优化效果与最佳模型相当。此外,探讨了自注意力机制的隐式偏差及其在分类任务中的应用,提出了新的稀疏注意力机制,提升了模型的可解释性和性能。
本文研究了两层神经网络在全局最小值附近的损失函数图景,确定了能够实现完美泛化的参数集,并描述了其梯度流动。通过新颖的技术,揭示了复杂的损失函数图景的简单特征,并解释了过度参数化的神经网络能够很好地泛化的原因。
完成下面两步后,将自动完成登录并继续当前操作。