RedWhale:通过高效持续预训练的改进韩语大语言模型
💡
原文中文,约500字,阅读约需1分钟。
📝
内容提要
KMMLU是一个新的韩语基准,包含35,030个专家级多项选择题,涵盖人文学科到STEM学科。LLMs在KMMLU上的准确率较低,需要改进。该基准已在Hugging Face Hub上公开,并整合到EleutherAI的语言模型评估工具中。
🎯
关键要点
- KMMLU是一个新的韩语基准,包含35,030个专家级多项选择题,涵盖人文学科到STEM学科。
- KMMLU收集了来自原始韩语考试的问题,捕捉了韩语的语言和文化方面。
- 测试了26个公开和专有LLM模型,发现有显著的改进空间。
- 最好的公开模型在KMMLU上的准确率为50.54%,低于人类平均表现62.6%。
- 当前适用的LLMs,例如Polyglot-Ko,表现更差。
- 即使是最强大的专有LLMs,例如GPT-4和HyperCLOVA X,准确率也仅为59.95%和53.40%。
- KMMLU提供了追踪韩语LLMs进展的工具。
- 数据集已在Hugging Face Hub上公开,并整合到EleutherAI的语言模型评估工具中。
➡️