小红花·文摘

为了评估中文大型语言模型（LLMs）的数学推理能力，研究人员提出了FineMath数据集，涵盖小学数学教学的主要概念，划分为17类数学应用问题，以深入分析LLMs的数学推理能力。实验结果显示，中文LLMs的数学推理能力有待提升。该数据集即将公开发布。