小红花·文摘

自然语言处理领域取得进展，但多语言多文化环境下的语言模型表现差异明显。研究引入了M5基准测试，包括八个数据集和五个任务，评估了LLMs。研究发现高资源语言和低资源语言之间存在任务无关性能差异，并指出在多语言环境中，较大的模型不一定表现更好。