当预训练数据与目标任务匹配时,语言模型性能提升

Every data selection method inherently has a target. In practice, these targets often emerge implicitly through benchmark-driven iteration: researchers develop selection strategies, train models,...

本文提出了一种基准目标排名方法(BETR),通过比较预训练文档与基准训练示例的相似性来优化数据选择。BETR在共享空间中嵌入基准示例和预训练文档,利用相似性评分训练轻量级分类器。研究表明,BETR在多个任务上显著提升性能,且更大的模型需要更少的过滤,强调数据选择策略需适应模型规模。

当预训练数据与目标任务匹配时,语言模型性能提升
原文英文,约300词,阅读约需1分钟。发表于:
阅读原文