小红花·文摘

Layer Normalization（LN）在Transformer中至关重要，确保每层输出的数值尺度稳定。与Batch Normalization（BN）不同，LN独立于batch大小和序列长度，适合变长序列和自回归推理。LN通过计算均值和方差进行标准化，保留可学习的参数，避免信息丢失。现代Transformer多采用Pre-LN结构，以提升训练稳定性。RMSNorm是LN的变体，简化了计算，适用于特定场景。LN的设计对深层网络的优化至关重要。

【Transformer 与注意力机制】25｜Layer Normalization：为什么 Transformer 用 LN，不用 BN

土法炼钢兴趣小组的博客 ·

本文提出了一种仅利用0.03%参数的LN-tuning方法，通过调整Layer Normalization模块的增益和偏置项，实现对PLMs的参数高效调整。研究发现将LN-tuning与其他方法相结合可以提升性能，但同时调整FFN和LayerNorm会导致性能下降。该方法实现了SOTA的性能表现。

关于层标准化调整在视觉 Transformer 连续学习中的有效性

BriefGPT - AI 论文速递 ·