基于改进的传统中文评估套件的基础模型
原文中文,约400字,阅读约需1分钟。发表于: 。我们发布了 TMMLU+,这是一个为传统中文大规模多任务语言理解数据集而设计的全面数据集。TMMLU + 是一个多项选择问答数据集,包括 66 个从初级到专业水平的学科。与其前身 TMMLU 相比,TMMLU + 的规模增加了六倍,学科分布更加平衡。我们在 TMMLU + 中包含了来自闭源模型和 24 个开源的中文大型语言模型的基准结果,这些模型的参数范围从 1.8B 到 72B...
我们发布了TMMLU+,这是一个为传统中文大规模多任务语言理解数据集而设计的全面数据集。TMMLU+是一个多项选择问答数据集,包括66个学科。与其前身TMMLU相比,TMMLU+的规模增加了六倍,学科分布更加平衡。我们公开发布了我们的数据集和相应的基准源代码。