逐九:为大型语言模型提供的多维多面的中文基准测试
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
我们开发了Xiezhi评估套件,包含220,000个多项选择题,用于评估47个大型语言模型。结果显示,这些模型在科学、工程、农学、医学和艺术领域的表现超过了人类平均水平,但在经济学、法学、教育学、文学、历史和管理学方面表现不佳。
🎯
关键要点
- 开发了Xiezhi评估套件,包含516个不同学科的220,000个多项选择题。
- 评估旨在检验大型语言模型的整体域知识。
- 对47个先进的大型语言模型进行了评估。
- 模型在科学、工程、农学、医学和艺术领域表现超过人类平均水平。
- 在经济学、法学、教育学、文学、历史和管理学方面表现不佳。
➡️