SuperCLUE-Math6: 适用于中文语言模型的分级多步数学推理基准测试
原文中文,约400字,阅读约需1分钟。发表于: 。我们引入了 SuperCLUE-Math6(SC-Math6),这是一个新的基准数据集,用于评估中文语言模型的数学推理能力。SC-Math6 是 GSM8K 数据集的升级版,具有增强的难度、多样性和应用范围。它包含了 2000 多个需要多步推理并提供自然语言解决方案的数学问题。我们提出了一种创新方案来量化大模型的推理能力,基于其在具有不同推理步骤的问题上的表现。对 12...
介绍了SC-Math6基准数据集,用于评估中文语言模型的数学推理能力。数据集包含2000多个多步推理的数学问题和自然语言解决方案。实验结果显示,GPT-4等顶级模型在推理能力上表现出优异性能。SC-Math6填补了中文数学推理基准的空白,提供了全面的测试平台。