本研究提出VeLU激活函数,通过动态调整输入方差和结合ArcTan-Sin变换,解决了ReLU在梯度流动和优化稳定性方面的不足,实验结果表明其在视觉基准测试中表现优异。
本研究提出了一种新层归一化策略Peri-LN,旨在解决变压器架构中的不足。Peri-LN在大规模训练中表现优异,能够有效平衡方差、改善梯度流动并提高收敛稳定性,具有潜在应用价值。
本研究提出了一种非负约束的训练方法,解决了深度强化学习中部分表现表示训练难度大的问题。该方法在Cartpole基准测试中显示出更好的梯度流动和稳定性。
本文研究了两层神经网络在全局最小值附近的损失函数图景,确定了能够实现完美泛化的参数集,并描述了其梯度流动。通过新颖的技术,揭示了复杂的损失函数图景的简单特征,并解释了过度参数化的神经网络能够很好地泛化的原因。
完成下面两步后,将自动完成登录并继续当前操作。