手术刀式去噪突破LLM能力上限,从头预训练模型下游任务平均提高7.2% | 中科院&阿里
💡
原文中文,约2800字,阅读约需7分钟。
📝
内容提要
中科院与阿里团队提出RefineX框架,通过程序化编辑精炼预训练数据,有效去除噪声并保留文本多样性,使模型在多项任务中的得分提高7.2%。该方法以最小干预剥离噪声,确保数据质量和可靠性。
🎯
关键要点
- 中科院与阿里团队提出RefineX框架,通过程序化编辑精炼预训练数据。
- RefineX有效去除噪声并保留文本多样性,使模型在多项任务中的得分提高7.2%。
- 该方法以最小干预剥离噪声,确保数据质量和可靠性。
- 传统数据精炼方案存在高价值内容误伤和高推理成本的问题。
- RefineX采用两阶段精炼流程,首先进行端到端精炼,然后生成可靠的监督程序。
- RefineX通过最小编辑距离算法捕获文本差异,过滤低质量数据。
- 使用RefineX净化后的数据训练模型在常识推理等任务中表现优异。
- RefineX对低质内容的改善率高达42.2%,且严格保持“零新增词汇”。
- RefineX提供了一个可靠又高效的大规模预训练数据细化的新范式。
➡️