印度 LLM 的预训练数据和分词工具

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

研究人员提出了一种新方法来准备数据,以开发多语言印地语大型语言模型。他们使用了多种开源和专有来源的数据,包括 Common Crawl、Indic books、新闻文章和维基百科。他们设计了自定义的预处理流程来消除冗余和低质量的文本内容,并对数据进行去重处理。研究重点是开发高质量的数据,并进行了令牌化优化和工程设计,以提高印地语模型的性能。他们还引入了一种新的多语言分词器训练策略,证明了其在印地语中的优越性能。

🎯

关键要点

  • 研究人员提出了一种新方法来准备数据,以开发多语言印地语大型语言模型。
  • 数据来源包括开源和专有来源,如 Common Crawl、Indic books、新闻文章和维基百科。
  • 设计了自定义的预处理流程,以消除冗余和低质量的文本内容。
  • 对 Common Crawl 数据进行了去重处理,解决了70%爬取网页中的冗余问题。
  • 研究重点是开发高质量的数据,并进行了令牌化优化和工程设计。
  • 引入了一种新的多语言分词器训练策略,证明了其在印地语中的优越性能。
➡️

继续阅读