Dolma是一个英文语料库,包含各种网络内容、科学论文、代码、公共领域图书、社交媒体和百科全书材料,共有三万亿个标记。作者还开源了数据整理工具包,并分享了对重要数据整理实践的了解。Dolma已被用于训练OLMo,这是一个用于构建和研究语言建模科学的最先进的开放式语言模型和框架。
完成下面两步后,将自动完成登录并继续当前操作。