基于改进的传统中文评估套件的基础模型

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

我们发布了TMMLU+,这是一个为传统中文大规模多任务语言理解数据集而设计的全面数据集。TMMLU+是一个多项选择问答数据集,包括66个学科。与其前身TMMLU相比,TMMLU+的规模增加了六倍,学科分布更加平衡。我们公开发布了我们的数据集和相应的基准源代码。

🎯

关键要点

  • 发布了TMMLU+,为传统中文大规模多任务语言理解数据集设计的全面数据集。
  • TMMLU+是一个多项选择问答数据集,包括66个学科,涵盖从初级到专业水平。
  • TMMLU+的规模相比于前身TMMLU增加了六倍,学科分布更加平衡。
  • 数据集中包含来自闭源模型和24个开源中文大型语言模型的基准结果,参数范围从1.8B到72B。
  • 研究发现传统中文模型落后于简体中文模型,大型语言模型在平均分上未超越人类表现。
  • 公开发布了数据集和相应的基准源代码。
➡️

继续阅读