手术刀式去噪突破LLM能力上限,从头预训练模型下游任务平均提高7.2% | 中科院&阿里

💡 原文中文,约2800字,阅读约需7分钟。
📝

内容提要

中科院与阿里团队提出RefineX框架,通过程序化编辑精炼预训练数据,有效去除噪声并保留文本多样性,使模型在多项任务中的得分提高7.2%。该方法以最小干预剥离噪声,确保数据质量和可靠性。

🎯

关键要点

  • 中科院与阿里团队提出RefineX框架,通过程序化编辑精炼预训练数据。
  • RefineX有效去除噪声并保留文本多样性,使模型在多项任务中的得分提高7.2%。
  • 该方法以最小干预剥离噪声,确保数据质量和可靠性。
  • 传统数据精炼方案存在高价值内容误伤和高推理成本的问题。
  • RefineX采用两阶段精炼流程,首先进行端到端精炼,然后生成可靠的监督程序。
  • RefineX通过最小编辑距离算法捕获文本差异,过滤低质量数据。
  • 使用RefineX净化后的数据训练模型在常识推理等任务中表现优异。
  • RefineX对低质内容的改善率高达42.2%,且严格保持“零新增词汇”。
  • RefineX提供了一个可靠又高效的大规模预训练数据细化的新范式。
➡️

继续阅读