关于层标准化调整在视觉 Transformer 连续学习中的有效性
原文中文,约300字,阅读约需1分钟。发表于: 。通过回顾和扩展简单的迁移学习思想:学习任务特定的归一化层,我们在维持竞争性性能的同时降低了计算成本,在 ImageNet-R 和 CIFAR-100 实验中,我们的方法在计算上更加经济且结果要么优于现有技术水平,要么与其相媲美。
本文提出了一种仅利用0.03%参数的LN-tuning方法,通过调整Layer Normalization模块的增益和偏置项,实现对PLMs的参数高效调整。研究发现将LN-tuning与其他方法相结合可以提升性能,但同时调整FFN和LayerNorm会导致性能下降。该方法实现了SOTA的性能表现。