量子位 ·

全新预训练数据筛选方案，让数据效率提升10倍！配置仅需fastText评分器｜港科大vivo出品

💡 原文中文，约5000字，阅读约需12分钟。

📝

内容提要

vivo与香港科技大学联合提出的PreSelect方法是一种高效的数据筛选技术，通过计算数据的预测强度来评估其对模型能力的贡献。该方法显著降低了计算成本，提升了数据筛选的效率和质量，实验结果表明其在多项任务中优于传统方法，验证了其有效性。

🎯

🔎

PreSelect方法通过引入预测强度的概念，提供了一种新的数据筛选思路。这种方法不仅提高了数据筛选的效率，还减少了对人工规则的依赖，使得筛选过程更加客观和泛化。相比传统方法，PreSelect在多项任务中表现出更优的效果，显示了其在数据处理领域的创新潜力。

使用PreSelect方法，计算需求减少了10倍，这对于大规模数据处理尤为重要。通过训练一个基于fastText的评分器，研究团队能够在保持数据质量的同时，显著降低计算资源的消耗。这一优势使得PreSelect方法在实际应用中更具可行性，尤其是在资源有限的情况下。

PreSelect方法不仅适用于特定领域的数据筛选，还能有效覆盖知识、问答和文学等多个领域。这种广泛的适用性使得该方法在多种任务中都能发挥作用，提升模型的整体性能。研究者在实验中发现，PreSelect筛选的数据在长度分布上更接近原始数据，表明其在样本代表性和覆盖性方面的优势。

❓

PreSelect方法的优势包括客观性、泛化性、轻量级和高细粒度的样本筛选能力。

PreSelect方法通过计算不同模型在数据上的loss有序性，评估数据对特定能力的贡献。

使用PreSelect方法可以减少10倍的计算需求。

PreSelect方法更客观，减少了对人工启发规则的依赖，筛选过程更具泛化性。

实验结果表明，PreSelect方法在多项任务中优于传统方法，平均提升了3%。

PreSelect方法的核心思想是通过数据预测强度衡量模型loss与下游任务表现的一致性。

🏷️