韩国大型语言模型的实用能力评估
原文中文,约500字,阅读约需2分钟。发表于: 。通过评估 Large Language Models(LLMs)的现状,我们探讨了 LLMs 在韩语背景下的语用能力,包括常规的多项选择题和开放式问题的评估,结果显示 GPT-4 在两种评估设置中表现出色,分别获得 81.11 和 85.69 分,HyperCLOVA X 也得到了良好的分数,尤其在开放式问题的评估中,获得了 81.56 分,与 GPT-4 相比仅相差 4.13 分,而使用...
KMMLU是一个新的韩语基准,包含35,030个专家级多项选择题。测试发现,目前的韩语LLMs表现较差,需要进一步改进。KMMLU提供了正确的工具,数据集已在Hugging Face Hub上公开。