小红花·文摘

该研究使用GSM8K数据集中的250个小学数学问题，翻译成10种不同语言，评估了大型语言模型在多语种环境下的推理能力，并提出了MGSM基准。研究发现，随着模型规模的增加，模型在MGSM问题上的解决能力越来越强，即使在孟加拉语和斯瓦希里语等少数语言中，这些模型也具有非常强的多语种推理能力。此外，研究还展示了语言模型的多语种推理能力扩展到其他任务，例如常识推理和上下文语义判断。