小红花·文摘

本研究提出VeLU激活函数，通过动态调整输入方差和结合ArcTan-Sin变换，解决了ReLU在梯度流动和优化稳定性方面的不足，实验结果表明其在视觉基准测试中表现优异。

BriefGPT - AI 论文速递 ·

本研究提出了一种新层归一化策略Peri-LN，旨在解决变压器架构中的不足。Peri-LN在大规模训练中表现优异，能够有效平衡方差、改善梯度流动并提高收敛稳定性，具有潜在应用价值。

BriefGPT - AI 论文速递 ·

本文研究了多头softmax注意力模型在多任务线性回归中的梯度流动动力学，发现梯度流的全局收敛性及“任务分配”现象。分析表明，梯度流经历热身、出现和收敛三个阶段，优化效果与最佳模型相当。此外，探讨了自注意力机制的隐式偏差及其在分类任务中的应用，提出了新的稀疏注意力机制，提升了模型的可解释性和性能。

BriefGPT - AI 论文速递 ·

本文研究了两层神经网络在全局最小值附近的损失函数图景，确定了能够实现完美泛化的参数集，并描述了其梯度流动。通过新颖的技术，揭示了复杂的损失函数图景的简单特征，并解释了过度参数化的神经网络能够很好地泛化的原因。

BriefGPT - AI 论文速递 ·