小红花·文摘

研究人员提出了一种新方法来准备数据，以开发多语言印地语大型语言模型。他们使用了多种开源和专有来源的数据，包括 Common Crawl、Indic books、新闻文章和维基百科。他们设计了自定义的预处理流程来消除冗余和低质量的文本内容，并对数据进行去重处理。研究重点是开发高质量的数据，并进行了令牌化优化和工程设计，以提高印地语模型的性能。他们还引入了一种新的多语言分词器训练策略，证明了其在印地语中的优越性能。