ScalingFilter:通过缩放法则的逆利用评估数据质量

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文提出了一种新方法,用于评估和提高大型未标记NLP数据集中的文本质量和LM模型的训练效率。实验证明该方法在多个模型和数据集上都有显著的效果提升。

🎯

关键要点

  • 提出了一种用于评估大型未标记NLP数据集中文本质量的新方法。
  • 该方法为文本实例分配一个“质量分数”。
  • 建立了一个框架来识别和消除低质量文本实例。
  • 提高了语言模型(LM)模型的训练效率。
  • 实验结果显示在多个模型和数据集上有显著的训练效果提升。
  • 使用OpenWebText数据集时,多个LM模型在14个下游评估任务上的平均绝对准确性提高了0.9%。
  • 使用Wikipedia数据集时,平均绝对准确性提高了0.8%。
➡️

继续阅读