该研究探讨了大型语言模型中的“超级权重”,即显著大于其他参数的权重,这些权重对模型的行为和性能具有重要影响。研究者分析了多个模型的权重分布,并提出了识别和管理超级权重的方法。
本文研究了随机训练后不同解之间的连续路径现象,并证明了随机梯度下降训练的宽两层神经网络的线性连接性。同时,给出了具有独立神经元权重的深度神经网络每层宽度的上下界,并通过权重分布与线性模式连接性的相关性验证了该方法的有效性。
本文研究了随机训练后不同解之间的连续路径现象,并证明了足够宽的两层神经网络的线性连接性。同时,对具有独立神经元权重的深度神经网络的每层宽度给出了线性连接性的上下界,并通过权重分布支持的维度验证了方法的有效性。
完成下面两步后,将自动完成登录并继续当前操作。