💡
原文英文,约300词,阅读约需1分钟。
📝
内容提要
在混合质量数据集上进行大规模模型预训练时,数据过滤至关重要。分类器质量过滤(CQF)通过训练二分类器来区分预训练数据和高质量数据,保留高分文档。研究表明,CQF能提升下游任务表现,但可能会隐含过滤高质量数据,未必改善语言建模。与合成数据相比,CQF的效果存在显著差异,挑战了其对数据质量有效性的看法。
🎯
关键要点
- 在大规模模型预训练中,数据过滤至关重要。
- 分类器质量过滤(CQF)通过训练二分类器来区分预训练数据和高质量数据。
- CQF保留高分文档,提升下游任务表现。
- CQF可能隐含过滤高质量数据,未必改善语言建模。
- 与合成数据相比,CQF的效果存在显著差异。
- 研究结果挑战了CQF对数据质量有效性的看法。