网络改写:计算与数据高效的语言建模方案
原文英文,约300词,阅读约需1分钟。发表于: 。Large language models are trained on massive scrapes of the web, which are often unstructured, noisy, and poorly phrased. Current scaling laws show that learning from such data requires an...
本文介绍了一种名为Web Rephrase Augmented Pre-training (WRAP)的方法,该方法使用现成的指令调整模型对网络文档进行改写,以特定风格如“维基百科”或“问答格式”进行预训练。研究表明,使用WRAP可以加速预训练并提高模型性能。通过使用合成的改写数据,可以提供更多样化的训练数据,从而提高模型在不同任务上的表现。合成数据具有更高的效用,因为它包含更多样化的风格,并且比网络抓取的数据质量更高。