斯坦福/苹果等23所机构发布DCLM基准测试,高质量数据集能否撼动Scaling Laws?基础模型与Llama3 8B表现相当
原文中文,约5300字,阅读约需13分钟。发表于: 。针对语言模型训练所需数据量持续提升,以及数据质量等问题,华盛顿大学、斯坦福大学、苹果等 23 所机构联手,提出了一个实验测试平台 DataComp for Language Models (DCLM),其核心是来自 Common Crawl 的 240T 新候选词库,通过固定训练代码,鼓励研究人员提出新的训练集来进行创新,对于语言模型的训练集改进具有重大意义。结果显示,基于...
OpenAI的Scaling Laws被视为大语言模型的摩尔定律。清华大学博士指出,为了提升模型性能,需要增加数据量至少10个数量级。华盛顿大学等机构提出了实验测试平台DCLM,通过固定训练代码,鼓励研究人员提出新的训练集来进行创新。DCLM-BASELINE是一个高质量训练集,通过基于模型的过滤达到了64%的准确性。DCLM提供了新的思考范式和可能性。