当预训练数据与目标任务匹配时,语言模型性能提升
Every data selection method inherently has a target. In practice, these targets often emerge implicitly through benchmark-driven iteration: researchers develop selection strategies, train models,...
本文提出了一种基准目标排名方法(BETR),通过比较预训练文档与基准训练示例的相似性来优化数据选择。BETR在共享空间中嵌入基准示例和预训练文档,利用相似性评分训练轻量级分类器。研究表明,BETR在多个任务上显著提升性能,且更大的模型需要更少的过滤,强调数据选择策略需适应模型规模。
