本文介绍了数据压缩语言模型(DCLM),通过标准化语料库和有效的预训练策略提升语言模型性能。DCLM提供了240T标记的数据集和53种下游评估,强调数据筛选在高质量训练集构建中的重要性。实验结果显示,DCLM-Baseline在MMLU上实现了64%的5-shot准确率,相较于之前的最佳模型提高了6.6个百分点,同时计算资源减少40%。
完成下面两步后,将自动完成登录并继续当前操作。