LHMKE:用于中文大语言模型的大规模综合多学科知识评估基准

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

KMMLU是一个新的韩语基准,包含35,030个专家级多项选择题。测试发现,目前的韩语LLMs表现较差,需要进一步改进。KMMLU提供了正确的工具来追踪这一进展。

🎯

关键要点

  • KMMLU是一个新的韩语基准,包含来自45个学科的35,030个专家级多项选择题。
  • KMMLU的问题来源于原始韩语考试,反映了韩语的语言和文化。
  • 测试了26个公开和专有的LLM模型,发现它们的表现有显著的改进空间。
  • 最好的公开模型在KMMLU上的准确率为50.54%,低于人类平均表现62.6%。
  • 当前适用的韩语LLMs,如Polyglot-Ko,表现更差。
  • 即使是最强大的专有LLMs,如GPT-4和HyperCLOVA X,准确率也仅为59.95%和53.40%。
  • KMMLU为韩语LLMs的改进提供了追踪进展的工具。
  • 数据集已在Hugging Face Hub上公开,并整合到EleutherAI的语言模型评估工具中。
➡️

继续阅读