Meltemi:希腊首个开放式大型语言模型
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文介绍了Dolma,一个混合构建的英文语料库,包括网络内容、科学论文、代码、公共领域图书、社交媒体和百科全书材料。文章分享了Dolma的设计原则、构建细节和内容摘要,并介绍了使用Dolma训练语言模型的实验结果。
🎯
关键要点
- Dolma是一个混合构建的英文语料库,包含三万亿个标记。
- Dolma的内容来源包括网络内容、科学论文、代码、公共领域图书、社交媒体和百科全书材料。
- 开源了数据整理工具包,以便进行进一步实验和复现工作。
- 文章描述了Dolma的设计原则、构建细节和内容摘要。
- 分享了在Dolma的中间状态上训练语言模型的分析和实验结果。
- 强调了重要数据整理实践,包括内容或质量过滤器、去重和多源混合的作用。
- Dolma已被用于训练OLMo,这是一个先进的开放式语言模型和框架。
➡️