ConceptMath:大型语言模型数学推理的双语概念评估基准
原文中文,约500字,阅读约需1分钟。发表于: 。本研究介绍了 ConceptMath,它是一个双语(英文和中文)的细粒度基准,用于评估大型语言模型的概念级数学推理能力。与评估一般数学推理平均准确率的传统基准不同,ConceptMath 通过将数学问题按照数学概念的层次进行系统组织,从而可以用概念级准确率评估数学推理能力的不同细粒度。在基于我们的 ConceptMath...
本研究介绍了ConceptMath,一个用于评估语言模型数学推理能力的双语基准。通过按照数学概念层次组织问题,可以评估不同细粒度的数学推理能力。提出了微调策略以改进模型的弱点。希望ConceptMath能指导开发人员了解模型的数学能力并促进模型的发展。