本研究提出了一种新型混合归一化策略HybridNorm,旨在解决深层变换器网络训练中的层归一化问题。实验结果表明,HybridNorm在密集和稀疏架构中均优于传统方法,显著提升了大语言模型的训练稳定性和性能。
完成下面两步后,将自动完成登录并继续当前操作。