KMMLU是一个新的韩语基准,包含35,030个专家级多项选择题,涵盖人文学科到STEM学科。LLMs在KMMLU上的准确率较低,需要改进。该基准已在Hugging Face Hub上公开,并整合到EleutherAI的语言模型评估工具中。
KMMLU是一个新的韩语基准,包含35,030个专家级多项选择题,涵盖人文学科到STEM学科。测试发现,目前的韩语LLMs表现较差,最好的公开模型准确率为50.54%,远低于人类平均表现62.6%。需要进一步改进韩语LLMs,而KMMLU提供了正确工具。数据集已在Hugging Face Hub上公开。
KMMLU是一个新的韩语基准,包含35,030个专家级多项选择题。测试发现,目前的韩语LLMs表现较差,需要进一步改进。KMMLU提供了正确的工具来追踪这一进展。
KMMLU是一个新的韩语基准,包含35,030个专家级多项选择题。测试发现,目前的韩语LLMs表现较差,需要进一步改进。KMMLU提供了正确的工具,数据集已在Hugging Face Hub上公开。
研究人员提出了新的韩语基准KMMLU,包含35,030个专家级多项选择题,涵盖人文学科到STEM学科。测试26个LLM模型,最好的公开模型在KMMLU上准确率为50.54%,低于人类平均表现62.6%。研究人员呼吁改进韩语LLMs,并将KMMLU整合到EleutherAI的语言模型评估工具中。
KMMLU是一个新的韩语基准,包含35,030个专家级多项选择题。测试发现,目前的韩语LLMs表现较差,最好的模型准确率为50.54%。KMMLU提供了正确的工具来追踪韩语LLMs的改进。数据集已在Hugging Face Hub上公开,并整合到EleutherAI的语言模型评估工具中。
研究人员提出了新的韩语基准KMMLU,包含35,030个专家级多项选择题,涵盖人文学科到STEM学科。最佳模型在KMMLU上的准确率为50.54%,低于人类平均表现62.6%。研究人员呼吁改进韩语LLMs,并将KMMLU整合到EleutherAI的语言模型评估工具中。
完成下面两步后,将自动完成登录并继续当前操作。