FineMath:面向中文大语言模型的细粒度数学评估基准
原文中文,约500字,阅读约需1分钟。发表于: 。为了全面评估大型语言模型(LLMs)的数学推理能力,我们需要精心策划评估数据集,涵盖不同难度级别的各种数学概念和问题。为此,我们在本文中提出了 FineMath,一个用于评估中文 LLMs 的细粒度数学评估基准数据集。FineMath 涵盖了小学数学教学的主要数学概念,并进一步划分为 17 类数学应用问题,从而能够深入分析 LLMs 的数学推理能力。所有 17...
为了评估中文大型语言模型(LLMs)的数学推理能力,研究人员提出了FineMath数据集,涵盖小学数学教学的主要概念,划分为17类数学应用问题,以深入分析LLMs的数学推理能力。实验结果显示,中文LLMs的数学推理能力有待提升。该数据集即将公开发布。