小红花·文摘

研究人员提出了新的韩语基准KMMLU，包含35,030个专家级多项选择题，涵盖人文学科到STEM学科。测试26个LLM模型，最好的公开模型在KMMLU上准确率为50.54％，低于人类平均表现62.6％。研究人员呼吁改进韩语LLMs，并将KMMLU整合到EleutherAI的语言模型评估工具中。

BriefGPT - AI 论文速递 ·

KMMLU是一个新的韩语基准，包含35,030个专家级多项选择题。测试发现，目前的韩语LLMs表现较差，最好的模型准确率为50.54％。KMMLU提供了正确的工具来追踪韩语LLMs的改进。数据集已在Hugging Face Hub上公开，并整合到EleutherAI的语言模型评估工具中。

BriefGPT - AI 论文速递 ·

研究人员提出了新的韩语基准KMMLU，包含35,030个专家级多项选择题，涵盖人文学科到STEM学科。最佳模型在KMMLU上的准确率为50.54％，低于人类平均表现62.6％。研究人员呼吁改进韩语LLMs，并将KMMLU整合到EleutherAI的语言模型评估工具中。

BriefGPT - AI 论文速递 ·