小红花·文摘

本研究介绍了ConceptMath，一个用于评估语言模型数学推理能力的双语基准。通过按照数学概念层次组织问题，可以评估不同细粒度的数学推理能力。提出了微调策略以改进模型的弱点。希望ConceptMath能指导开发人员了解模型的数学能力并促进模型的发展。