TurkishMMLU:测量土耳其语的大规模多任务语言理解
原文中文,约500字,阅读约需2分钟。发表于: 。通过引入第一个多任务、多项选择土耳其问答基准测试 TurkishMMLU,评估了大型语言模型对土耳其语的理解能力。该基准测试包括来自土耳其高中教育课程的 9 个不同科目的 10,000 多个问题,通过对超过 20 种语言模型进行深入评估,提供了对当前语言模型在土耳其能力和局限性的详细分析。
KMMLU是一个新的韩语基准,包含35,030个专家级多项选择题,涵盖人文学科到STEM学科。测试发现,目前的韩语LLMs表现较差,最好的公开模型准确率为50.54%,远低于人类平均表现62.6%。需要进一步改进韩语LLMs,而KMMLU提供了正确工具。数据集已在Hugging Face Hub上公开。