小红花·文摘

Layer Normalization（LN）在Transformer中至关重要，确保每层输出的数值尺度稳定。与Batch Normalization（BN）不同，LN独立于batch大小和序列长度，适合变长序列和自回归推理。LN通过计算均值和方差进行标准化，保留可学习的参数，避免信息丢失。现代Transformer多采用Pre-LN结构，以提升训练稳定性。RMSNorm是LN的变体，简化了计算，适用于特定场景。LN的设计对深层网络的优化至关重要。