小红花·文摘

本研究介绍了ConceptMath，一个用于评估语言模型数学推理能力的双语基准。通过按照数学概念层次组织问题，可以评估不同细粒度的数学推理能力。提出了微调策略以改进模型的弱点。希望ConceptMath能指导开发人员了解模型的数学能力并促进模型的发展。

ConceptMath：大型语言模型数学推理的双语概念评估基准

BriefGPT - AI 论文速递 ·

介绍了SC-Math6基准数据集，用于评估中文语言模型的数学推理能力。数据集包含2000多个多步推理的数学问题和自然语言解决方案。实验结果显示，GPT-4等顶级模型在推理能力上表现出优异性能。SC-Math6填补了中文数学推理基准的空白，提供了全面的测试平台。

SuperCLUE-Math6: 适用于中文语言模型的分级多步数学推理基准测试

BriefGPT - AI 论文速递 ·

该文章介绍了一种通过微调开源语言模型来增强数学推理能力的方法，并提出了一个新的高质量数据集MathCodeInstruct。MathCoder模型在数学问题解决方案上表现出色，得分远超其他开源方案，并在竞争级别的MATH数据集上超过了GPT-4。

MARIO：用代码解释器输出进行数学推理的再现性管道

BriefGPT - AI 论文速递 ·

MathPile是一个高质量、大规模的数学专注语料库，包含约95亿个标记。通过严谨的数据收集和处理工作，确保了语料库的高质量。MathPile旨在提高语言模型的数学推理能力，并计划开源不同版本以促进该领域的发展。

生成数学 AI：第一部分 --MathPile：一个十亿词级别的数学预训练语料库

BriefGPT - AI 论文速递 ·

该文章介绍了一种通过微调开源语言模型来增强数学推理能力的方法，并提出了一个新的高质量数据集MathCodeInstruct。通过定制的有监督微调和推理方法，生成了MathCoder模型，该模型在数学问题解决方案上表现出色。

Magicoder：只需源代码

BriefGPT - AI 论文速递 ·

该研究提出了一种新的评估方法，用于评估大型语言模型（LLM）的数学推理能力。研究发现，LLMs难以识别与特定误解相对应的错误答案和解释特定错误答案的误解。该研究指出了增强LLMs数学推理能力的新机会。

从错误中学习使 LLM 成为更好的推理耠

BriefGPT - AI 论文速递 ·

该研究提出了一种新的数学评估方法，能够识别初学者和专家导师的误解，发现大型语言模型难以识别特定不完整知识的错误答案和误解，为增强大型语言模型数学推理能力提供了新机会。

民主化推理能力：从大型语言模型的个性化学习

BriefGPT - AI 论文速递 ·

该研究提出了一种通过微调开源语言模型来增强其数学推理能力的方法，并介绍了一种生成包含数学问题和基于代码的解决方案的新颖高质量数据集的方法。研究人员开发了MathCoder模型，该模型能够生成基于代码的解决方案来解决具有挑战性的数学问题，并在MATH和GSM8K数据集上取得了最新得分，超过了其他开源方案，包括GPT-4。数据集和模型将在指定URL发布。

MathCoder：深化数学推理的 LLMs 中无缝代码集成

BriefGPT - AI 论文速递 ·