网络改写:计算与数据高效的语言建模方案

网络改写:计算与数据高效的语言建模方案

💡 原文英文,约300词,阅读约需1分钟。
📝

内容提要

本文介绍了一种名为Web Rephrase Augmented Pre-training (WRAP)的方法,该方法使用现成的指令调整模型对网络文档进行改写,以特定风格如“维基百科”或“问答格式”进行预训练。研究表明,使用WRAP可以加速预训练并提高模型性能。通过使用合成的改写数据,可以提供更多样化的训练数据,从而提高模型在不同任务上的表现。合成数据具有更高的效用,因为它包含更多样化的风格,并且比网络抓取的数据质量更高。

🎯

关键要点

  • 提出了一种名为Web Rephrase Augmented Pre-training (WRAP)的方法。
  • WRAP使用现成的指令调整模型对网络文档进行特定风格的改写。
  • WRAP可以加速预训练,提升模型性能。
  • 使用合成的改写数据提供更多样化的训练数据。
  • 合成数据的效用更高,包含更多样化的风格。
  • WRAP在C4数据集上加速预训练约3倍。
  • 在相同的预训练计算预算下,模型在不同子集上的困惑度平均提高超过10%。
  • 模型在13个任务上的零-shot问答准确率提高超过2%。
  • 研究了改写风格对模型性能的影响。
  • 合成数据的质量高于网络抓取的数据,反映了下游评估风格的多样性。
➡️

继续阅读