Meltemi:希腊首个开放式大型语言模型

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文介绍了Dolma,一个混合构建的英文语料库,包括网络内容、科学论文、代码、公共领域图书、社交媒体和百科全书材料。文章分享了Dolma的设计原则、构建细节和内容摘要,并介绍了使用Dolma训练语言模型的实验结果。

🎯

关键要点

  • Dolma是一个混合构建的英文语料库,包含三万亿个标记。
  • Dolma的内容来源包括网络内容、科学论文、代码、公共领域图书、社交媒体和百科全书材料。
  • 开源了数据整理工具包,以便进行进一步实验和复现工作。
  • 文章描述了Dolma的设计原则、构建细节和内容摘要。
  • 分享了在Dolma的中间状态上训练语言模型的分析和实验结果。
  • 强调了重要数据整理实践,包括内容或质量过滤器、去重和多源混合的作用。
  • Dolma已被用于训练OLMo,这是一个先进的开放式语言模型和框架。
➡️

继续阅读