当预训练数据与目标任务匹配时，语言模型性能提升

Every data selection method inherently has a target. In practice, these targets often emerge implicitly through benchmark-driven iteration: researchers develop selection strategies, train models,...

本文提出了一种基准目标排名方法（BETR），通过比较预训练文档与基准训练示例的相似性来优化数据选择。BETR在共享空间中嵌入基准示例和预训练文档，利用相似性评分训练轻量级分类器。研究表明，BETR在多个任务上显著提升性能，且更大的模型需要更少的过滤，强调数据选择策略需适应模型规模。

BETR 数据选择模型规模相似性评分语言模型轻量级分类器