控制随机性改善 Transformer 模型的性能

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文研究了深度学习中预训练数据中噪声的特性,并提出了一种轻量级的黑盒调节方法(NMTune),来对齐特征空间,减轻噪声的恶性效应,并改善在域内和域外任务上的泛化能力。实验结果表明,轻微噪声预训练可以在域内传输性能上有益,但总是会对域外性能造成恶化。

🎯

关键要点

  • 预训练和微调是深度学习中的标准实践。
  • 预训练数据中存在标签噪声,可能对模型的泛化产生不利影响。
  • 轻微噪声预训练在域内传输性能上有益,但对域外性能造成恶化。
  • 噪声对预训练特征空间的影响不同。
  • 提出了一种轻量级的黑盒调节方法(NMTune),用于对齐特征空间,减轻噪声影响。
  • NMTune旨在改善在域内和域外任务上的泛化能力。
  • 对经过噪声数据预训练的视觉和语言模型进行了实证实验,评估了NMTune的方法。
  • 研究方向被称为噪声模型学习,显示出其重要性。
➡️

继续阅读