Apple Machine Learning Research ·

数据压缩语言模型（DataComp-LM）：寻找下一代语言模型训练集

Q: DCLM提供了多少标记的数据集？

DCLM提供了240T标记的数据集。

💡 原文英文，约500词，阅读约需2分钟。

📝

内容提要

本文介绍了数据压缩语言模型（DCLM），通过标准化语料库和有效的预训练策略提升语言模型性能。DCLM提供了240T标记的数据集和53种下游评估，强调数据筛选在高质量训练集构建中的重要性。实验结果显示，DCLM-Baseline在MMLU上实现了64%的5-shot准确率，相较于之前的最佳模型提高了6.6个百分点，同时计算资源减少40%。

🎯

关键要点

DCLM（数据压缩语言模型）旨在通过标准化语料库和有效的预训练策略提升语言模型性能。
DCLM提供了240T标记的数据集和53种下游评估，强调数据筛选在高质量训练集构建中的重要性。
实验结果显示，DCLM-Baseline在MMLU上实现了64%的5-shot准确率，相较于之前的最佳模型提高了6.6个百分点。
DCLM-Baseline在训练过程中计算资源减少了40%。

❓

延伸问答

数据压缩语言模型（DCLM）有什么主要目标？

DCLM旨在通过标准化语料库和有效的预训练策略提升语言模型的性能。

DCLM提供了多少标记的数据集？

DCLM提供了240T标记的数据集。

DCLM-Baseline在MMLU上的5-shot准确率是多少？

DCLM-Baseline在MMLU上实现了64%的5-shot准确率。

DCLM-Baseline相比于之前的最佳模型提高了多少个百分点？

DCLM-Baseline相比于之前的最佳模型提高了6.6个百分点。

DCLM在训练过程中计算资源减少了多少？

DCLM在训练过程中计算资源减少了40%。

数据筛选在构建高质量训练集中的重要性是什么？

数据筛选是组装高质量训练集的关键，能够显著提升模型性能。

🏷️