该研究使用GSM8K数据集中的250个小学数学问题,翻译成10种不同语言,评估了大型语言模型在多语种环境下的推理能力,并提出了MGSM基准。研究发现,随着模型规模的增加,模型在MGSM问题上的解决能力越来越强,即使在孟加拉语和斯瓦希里语等少数语言中,这些模型也具有非常强的多语种推理能力。此外,研究还展示了语言模型的多语种推理能力扩展到其他任务,例如常识推理和上下文语义判断。
完成下面两步后,将自动完成登录并继续当前操作。