控制随机性改善 Transformer 模型的性能
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本文研究了深度学习中预训练数据中噪声的特性,并提出了一种轻量级的黑盒调节方法(NMTune),来对齐特征空间,减轻噪声的恶性效应,并改善在域内和域外任务上的泛化能力。实验结果表明,轻微噪声预训练可以在域内传输性能上有益,但总是会对域外性能造成恶化。
🎯
关键要点
- 预训练和微调是深度学习中的标准实践。
- 预训练数据中存在标签噪声,可能对模型的泛化产生不利影响。
- 轻微噪声预训练在域内传输性能上有益,但对域外性能造成恶化。
- 噪声对预训练特征空间的影响不同。
- 提出了一种轻量级的黑盒调节方法(NMTune),用于对齐特征空间,减轻噪声影响。
- NMTune旨在改善在域内和域外任务上的泛化能力。
- 对经过噪声数据预训练的视觉和语言模型进行了实证实验,评估了NMTune的方法。
- 研究方向被称为噪声模型学习,显示出其重要性。
➡️