小红花·文摘

自ChatGPT发布以来，自然语言处理领域迅速发展，但大规模语言模型在不同语言和文化中的表现差异显著。本研究引入M5基准测试，评估41种语言下的视觉语言任务，强调高低资源语言的性能差异。