小红花·文摘

LHMKE是一种全面评估中文大型语言模型知识的基准，包括10,465个问题，涵盖30个学科的75个任务。通过零-shot评估，比较了11个中文大型语言模型在不同学科的性能。验证了GPT-4的自动评分主观预测能力。研究结果表明LHMKE是具有挑战性和先进性的评估标准。

BriefGPT - AI 论文速递 ·

KMMLU是一个新的韩语基准，包含35,030个专家级多项选择题。测试发现，目前的韩语LLMs表现较差，需要进一步改进。KMMLU提供了正确的工具来追踪这一进展。

BriefGPT - AI 论文速递 ·