大型语言模型中的中文知识校正基准测试

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

LHMKE是一种全面评估中文大型语言模型知识的基准,包括10,465个问题,涵盖30个学科的75个任务。通过零-shot评估,比较了11个中文大型语言模型在不同学科的性能。验证了GPT-4的自动评分主观预测能力。研究结果表明LHMKE是具有挑战性和先进性的评估标准。

🎯

关键要点

  • LHMKE是一种全面评估中文大型语言模型知识的基准。
  • 该基准包括10,465个问题,涵盖30个学科的75个任务。
  • 评估内容包括客观题和主观题,以全面评估模型的知识水平。
  • 对11个中文大型语言模型进行了零-shot评估,比较了它们在不同学科的性能。
  • 验证了GPT-4的自动评分主观预测能力。
  • 研究结果表明LHMKE是具有挑战性和先进性的评估标准。
➡️

继续阅读