DataMan:大型语言模型预训练的数据管理器
📝
内容提要
本研究解决了大型语言模型(LLMs)预训练数据选择的不足,需依赖有限的启发式和人类直觉。通过“逆向思维”,提出了14个质量标准,并开发数据管理器DataMan,从447B标记的预训练语料中进行数据标注,验证了这种选择数据的方法能显著提升模型在上下文学习和指令跟随能力上的表现。
🏷️
标签
➡️