机器之心 ·

ICLR 2025｜浙大、千问发布预训练数据管理器DataMan，53页细节满满

💡 原文中文，约3300字，阅读约需8分钟。

📝

内容提要

AIxiv专栏探讨了大语言模型预训练数据选择的重要性，提出了数据管理器DataMan，通过14个质量维度对数据进行评分和领域识别。研究表明，使用DataMan筛选的数据显著提升模型性能，胜率最高达78.5%。

🎯

🔎

在大语言模型的预训练过程中，数据选择的质量直接影响模型的性能。现有方法多依赖于启发式和人类直觉，缺乏系统性指导。DataMan的提出为数据选择提供了新的思路，通过14个质量维度的评分，帮助研究者更科学地筛选数据，从而提升模型的表现。

DataMan引入的逆向思维概念，通过提示大语言模型自我识别质量标准，展现了创新的数据选择方法。这种方法不仅提高了数据选择的准确性，还为未来的研究提供了新的方向，尤其是在复杂任务和领域特定模型的训练中，具有重要的应用潜力。

研究表明，数据量的增加对模型性能有显著影响。通过对更大数据集的实验，模型在上下文学习等任务中表现出更好的性能。这提示研究者在进行模型训练时，应考虑数据量的合理配置，以最大化模型的学习效果和泛化能力。

❓

DataMan是一个数据管理器，用于对预训练数据进行质量评分和领域识别，以优化大语言模型的预训练过程。

使用DataMan筛选的数据显著提升模型性能，胜率最高可达78.5%。

DataMan通过14个质量维度对数据进行评分和领域识别，构建了一个综合评分体系。

现有方法依赖于有限的启发式和人类直觉，缺乏明确的指导方针。

实验验证了DataMan方法的有效性，模型在多个下游任务上表现优异，尤其是在上下文学习任务中。

可以应用DataMan的领域识别来过滤特定领域的数据，如医学、法律和金融领域，进行继续预训练。

🏷️