4个大语言模型训练中的典型开源数据集
原文中文,约11700字,阅读约需28分钟。发表于: 。本篇文章将介绍大语言模型应用中的典型开源数据集集合。
本文介绍了四种开源数据集:Pile、ROOTS、RefinedWeb和SlimPajama。Pile是一个多样性的大规模文本语料库,包含22个子集,涵盖了不同领域和主题。ROOTS是BigScience项目使用的数据集,包含59种语言,总大小约1.6TB。RefinedWeb是由TII开发的数据集,主要由高质量的CommonCrawl数据组成。SlimPajama是由CerebrasAI清洗和去重后的RedPajama数据集。文章还介绍了这些数据集的处理流程和方法。