SuperCLUE-Math6: 适用于中文语言模型的分级多步数学推理基准测试

BriefGPT - AI 论文速递 BriefGPT - AI 论文速递 ·

介绍了SC-Math6基准数据集,用于评估中文语言模型的数学推理能力。数据集包含2000多个多步推理的数学问题和自然语言解决方案。实验结果显示,GPT-4等顶级模型在推理能力上表现出优异性能。SC-Math6填补了中文数学推理基准的空白,提供了全面的测试平台。

原文中文,约400字,阅读约需1分钟。
阅读原文