💡 原文英文,约300词,阅读约需1分钟。
📝

内容提要

在混合质量数据集上进行大规模模型预训练时,数据过滤至关重要。分类器质量过滤(CQF)通过训练二分类器来区分预训练数据和高质量数据,保留高分文档。研究表明,CQF能提升下游任务表现,但可能会隐含过滤高质量数据,未必改善语言建模。与合成数据相比,CQF的效果存在显著差异,挑战了其对数据质量有效性的看法。

🎯

关键要点

  • 在大规模模型预训练中,数据过滤至关重要。
  • 分类器质量过滤(CQF)通过训练二分类器来区分预训练数据和高质量数据。
  • CQF保留高分文档,提升下游任务表现。
  • CQF可能隐含过滤高质量数据,未必改善语言建模。
  • 与合成数据相比,CQF的效果存在显著差异。
  • 研究结果挑战了CQF对数据质量有效性的看法。