研究人员提出了一种新方法来准备数据,以开发多语言印地语大型语言模型。他们使用了多种开源和专有来源的数据,包括 Common Crawl、Indic books、新闻文章和维基百科。他们设计了自定义的预处理流程来消除冗余和低质量的文本内容,并对数据进行去重处理。研究重点是开发高质量的数据,并进行了令牌化优化和工程设计,以提高印地语模型的性能。他们还引入了一种新的多语言分词器训练策略,证明了其在印地语中的优越性能。
完成下面两步后,将自动完成登录并继续当前操作。