ScalingFilter:通过缩放法则的逆利用评估数据质量
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文提出了一种新方法,用于评估和提高大型未标记NLP数据集中的文本质量和LM模型的训练效率。实验证明该方法在多个模型和数据集上都有显著的效果提升。
🎯
关键要点
- 提出了一种用于评估大型未标记NLP数据集中文本质量的新方法。
- 该方法为文本实例分配一个“质量分数”。
- 建立了一个框架来识别和消除低质量文本实例。
- 提高了语言模型(LM)模型的训练效率。
- 实验结果显示在多个模型和数据集上有显著的训练效果提升。
- 使用OpenWebText数据集时,多个LM模型在14个下游评估任务上的平均绝对准确性提高了0.9%。
- 使用Wikipedia数据集时,平均绝对准确性提高了0.8%。
➡️