本文介绍了数据压缩语言模型(DCLM),通过标准化语料库和有效的预训练策略提升语言模型性能。DCLM提供了240T标记的数据集和53种下游评估,强调数据筛选在高质量训练集构建中的重要性。实验结果显示,DCLM-Baseline在MMLU上实现了64%的5-shot准确率,相较于之前的最佳模型提高了6.6个百分点,同时计算资源减少40%。
DataComp 基准测试围绕 128 亿个图像文本对的数据集,旨在提升模型性能。研究综述了大型语言模型的数据集,包括预训练和微调数据,提供了 774.5 TB 的统计信息。Dolma 是一个包含三万亿标记的英文语料库,支持 OLMo 模型训练。文章探讨了数据污染问题及其对基准测试的影响,并提出了评估方法和最佳实践,以确保 LLM 评估的可靠性。
完成下面两步后,将自动完成登录并继续当前操作。