LHMKE是一种全面评估中文大型语言模型知识的基准,包括10,465个问题,涵盖30个学科的75个任务。通过零-shot评估,比较了11个中文大型语言模型在不同学科的性能。验证了GPT-4的自动评分主观预测能力。研究结果表明LHMKE是具有挑战性和先进性的评估标准。
KMMLU是一个新的韩语基准,包含35,030个专家级多项选择题。测试发现,目前的韩语LLMs表现较差,需要进一步改进。KMMLU提供了正确的工具来追踪这一进展。
完成下面两步后,将自动完成登录并继续当前操作。