大型语言模型中的中文知识校正基准测试
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
LHMKE是一种全面评估中文大型语言模型知识的基准,包括10,465个问题,涵盖30个学科的75个任务。通过零-shot评估,比较了11个中文大型语言模型在不同学科的性能。验证了GPT-4的自动评分主观预测能力。研究结果表明LHMKE是具有挑战性和先进性的评估标准。
🎯
关键要点
- LHMKE是一种全面评估中文大型语言模型知识的基准。
- 该基准包括10,465个问题,涵盖30个学科的75个任务。
- 评估内容包括客观题和主观题,以全面评估模型的知识水平。
- 对11个中文大型语言模型进行了零-shot评估,比较了它们在不同学科的性能。
- 验证了GPT-4的自动评分主观预测能力。
- 研究结果表明LHMKE是具有挑战性和先进性的评估标准。
➡️