FuLG: 150B 罗马尼亚语语料库用于语言模型预训练

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

Dolma是一个英文语料库,包含各种网络内容、科学论文、代码、公共领域图书、社交媒体和百科全书材料,共有三万亿个标记。作者还开源了数据整理工具包,并分享了对重要数据整理实践的了解。Dolma已被用于训练OLMo,这是一个用于构建和研究语言建模科学的最先进的开放式语言模型和框架。

🎯

关键要点

  • Dolma是一个包含三万亿个标记的英文语料库,涵盖网络内容、科学论文、代码、公共领域图书、社交媒体和百科全书材料。
  • 开源了数据整理工具包,以便进行进一步实验和复现工作。
  • 报告描述了Dolma的设计原则、构建细节和内容摘要,并展示了训练语言模型的分析和实验结果。
  • 分享了对重要数据整理实践的理解,包括内容或质量过滤器、去重和多源混合的作用。
  • Dolma已被用于训练OLMo,这是一个先进的开放式语言模型和框架,旨在构建和研究语言建模科学。
➡️

继续阅读