Layer Normalization(LN)在Transformer中至关重要,确保每层输出的数值尺度稳定。与Batch Normalization(BN)不同,LN独立于batch大小和序列长度,适合变长序列和自回归推理。LN通过计算均值和方差进行标准化,保留可学习的参数,避免信息丢失。现代Transformer多采用Pre-LN结构,以提升训练稳定性。RMSNorm是LN的变体,简化了计算,适用于特定场景。LN的设计对深层网络的优化至关重要。
本文提出了一种仅利用0.03%参数的LN-tuning方法,通过调整Layer Normalization模块的增益和偏置项,实现对PLMs的参数高效调整。研究发现将LN-tuning与其他方法相结合可以提升性能,但同时调整FFN和LayerNorm会导致性能下降。该方法实现了SOTA的性能表现。
完成下面两步后,将自动完成登录并继续当前操作。