量子位 ·

Scaling Law不总是适用！尤其在文本分类任务中，vivo AI Lab提出数据质量提升解决方法

💡 原文中文，约2800字，阅读约需7分钟。

📝

内容提要

vivo AI Lab提出了一种数据质量提升（DQE）方法，旨在通过减少数据量来提高文本分类任务的训练效率和准确性。研究表明，DQE方法在大多数测试集上优于全量数据微调，有效解决了数据冲突和冗余问题，尤其在情感分析和用户意图识别中具有重要意义。

🎯

🔎

在文本分类任务中，数据质量直接影响模型的性能。vivo AI Lab提出的DQE方法通过减少数据量来提升训练效率，表明在某些情况下，数据的数量并非越多越好。尤其在情感分析和用户意图识别中，清晰的类别界限和高质量的数据集是成功的关键。

研究指出，标签噪声在文本分类任务中普遍存在，尤其是在数据量较大时。DQE方法通过识别和分类噪声数据（如Uncovered、Difficult和Noisy），为处理标签噪声提供了新的思路。这一过程不仅提高了模型的准确性，也为后续的数据清洗和标注提供了参考。

DQE方法在多个数据集上的实验结果显示出显著的性能提升，尤其是在使用近一半数据量的情况下。这一发现挑战了传统的Scaling Law理论，提示研究者在进行文本分类时应关注数据的质量而非仅仅是数量，从而优化模型的训练过程。

❓

DQE方法旨在通过减少数据量来提高文本分类任务的训练效率和准确性。

DQE方法通过数据清洗、文本嵌入和贪婪采样来提升数据质量，从而有效解决数据冲突和冗余问题。

数据被分为sampled和unsampled，unsampled中的错误预测数据被分类为Uncovered、Difficult和Noisy三种类型。

实验结果显示，DQE方法在多个数据集上表现出显著的性能提升，使用近一半的数据量获得更高的准确率。

DQE方法有效改善了生成式模型的指令跟随能力，输出符合预期格式。

数据质量对情感分析和用户意图识别等任务至关重要，直接影响AI Agent的性能。

🏷️