AIxiv专栏探讨了大语言模型预训练数据选择的重要性,提出了数据管理器DataMan,通过14个质量维度对数据进行评分和领域识别。研究表明,使用DataMan筛选的数据显著提升模型性能,胜率最高达78.5%。
本研究解决了大型语言模型(LLMs)预训练数据选择的不足,需依赖有限的启发式和人类直觉。通过“逆向思维”,提出了14个质量标准,并开发数据管理器DataMan,从447B标记的预训练语料中进行数据标注,验证了这种选择数据的方法能显著提升模型在上下文学习和指令跟随能力上的表现。
完成下面两步后,将自动完成登录并继续当前操作。