关于层标准化调整在视觉 Transformer 连续学习中的有效性

通过回顾和扩展简单的迁移学习思想：学习任务特定的归一化层，我们在维持竞争性性能的同时降低了计算成本，在 ImageNet-R 和 CIFAR-100 实验中，我们的方法在计算上更加经济且结果要么优于现有技术水平，要么与其相媲美。

本文提出了一种仅利用0.03%参数的LN-tuning方法，通过调整Layer Normalization模块的增益和偏置项，实现对PLMs的参数高效调整。研究发现将LN-tuning与其他方法相结合可以提升性能，但同时调整FFN和LayerNorm会导致性能下降。该方法实现了SOTA的性能表现。

LN-tuning Layer Normalization PLMs transformer 参数调整性能提升