量子位 ·

手术刀式去噪突破LLM能力上限，从头预训练模型下游任务平均提高7.2% | 中科院＆阿里

💡 原文中文，约2800字，阅读约需7分钟。

📝

内容提要

中科院与阿里团队提出RefineX框架，通过程序化编辑精炼预训练数据，有效去除噪声并保留文本多样性，使模型在多项任务中的得分提高7.2%。该方法以最小干预剥离噪声，确保数据质量和可靠性。

🎯

🔎

RefineX框架通过程序化编辑精炼预训练数据，采用两阶段精炼流程，确保在去噪的同时保留文本的多样性。这种方法不仅提高了数据质量，还降低了传统精炼方案中常见的高推理成本和误伤高价值内容的风险。

使用RefineX净化后的数据进行训练，模型在常识推理等任务中的得分平均提高了7.2%。这表明高质量的预训练数据对模型的推理能力至关重要，尤其是在面对复杂任务时，数据的有效性直接影响模型的表现。

在大规模数据精炼中，如何高效去除噪声而不损害有价值信息是一大挑战。RefineX通过最小编辑距离算法和严格的删除操作，避免了传统方法中可能引入的模型偏好和语义篡改风险，确保了数据的可靠性。

❓

RefineX框架通过程序化编辑精炼预训练数据，有效去除噪声并保留文本多样性，从而提高模型在多项任务中的得分。

RefineX通过最小干预剥离噪声，确保数据质量和可靠性，使得使用其净化后的数据训练的模型在常识推理等任务中表现优异，平均得分提高7.2%。

传统数据精炼方案存在高价值内容误伤和高推理成本的问题，无法做到字符级的精准修正。

RefineX采用两阶段精炼流程，首先进行端到端精炼，然后生成可靠的监督程序，通过最小编辑距离算法捕获文本差异，过滤低质量数据。

RefineX对低质内容的改善率高达42.2%，且严格保持“零新增词汇”，避免了引入幻觉风险。

RefineX通过最小干预剥离噪声，保留原始文本的多样性和自然性，避免对文本进行过度修改。

🏷️