IndicGenBench:用于评估 LLMs 在印度语言上的生成能力的多语言基准测试

原文约400字,阅读约需1分钟。发表于:

印度是一个拥有 14 亿人口的语言多样性国家,为了促进多语言大型语言模型的研究和评估,我们发布了 IndicGenBench,这是一个覆盖 13 种脚本、4 种语系以及 29 种印度语言的最大基准。我们对包括 GPT-3.5、GPT-4、PaLM-2、mT5、Gemma、BLOOM 和 LLaMA 在内的各种大型语言模型在 IndicGenBench 上的表现进行了评估,结果显示多数任务中表现最好的是最大的 PaLM-2 模型,但与英语相比,所有语言都存在显著的性能差距,因此我们需要进一步的研究来开发更具包容性的多语言语言模型。

该研究引入了广泛的资源套件,旨在弥合其他语言的模型建设进展受限于资源稀缺的差距。通过手动验证数据、未验证的数据和合成数据,建立了一个干净的开源流水线,用于从各种来源收集预训练数据。通过解决毒性对齐问题,生成了非有毒响应。希望这些数据和资源能推动 Indic LLMs 的研究和开发,并为其他语言建立一个开源蓝图。

相关推荐 去reddit讨论