本文介绍了Dolma,一个混合构建的英文语料库,包括网络内容、科学论文、代码、公共领域图书、社交媒体和百科全书材料。文章分享了Dolma的设计原则、构建细节和内容摘要,并介绍了使用Dolma训练语言模型的实验结果。
Dolma是一个英文语料库,包含各种网络内容、科学论文、代码、公共领域图书、社交媒体和百科全书材料,共有三万亿个标记。作者还开源了数据整理工具包,并分享了对重要数据整理实践的了解。Dolma已被用于训练OLMo,这是一个用于构建和研究语言建模科学的最先进的开放式语言模型和框架。
完成下面两步后,将自动完成登录并继续当前操作。