BriefGPT - AI 论文速递 ·

MuMath-Code：结合多角度数据增强的数学推理工具使用大型语言模型

💡 原文中文，约2200字，阅读约需6分钟。

📝

内容提要

本文探讨了大型语言模型在数学推理中的不足，并提出通过丰富数据环境和新数学数据集来提升模型性能的方法。研究表明，经过微调的模型在多个数学推理数据集上表现优异，特别是MathGenieLM系列模型在GSM8K和MATH数据集上取得了显著的准确率。此外，研究提出了系统的方法解决单位一致性问题，并验证了数据增强在跨语言推理中的有效性，推动了数学推理领域的进展。

🎯

关键要点

大型语言模型在数学推理能力方面存在不足，特别是在实现真正的人工智能通用智能上。
通过丰富数据环境和引入新的数学数据集，研究提出了一种精调数学专用语言模型的协议，显著提升了模型性能。
MathGenieLM系列模型在GSM8K和MATH数据集上取得了显著的准确率，尤其是MathGenieLM-InternLM2在GSM8K上达到了87.7%的准确率。
提出了一种系统的方法解决单位一致性问题，使用Unit Consistency Programs（UCPs）对模型进行微调，产生了VerityMath。
研究探讨了利用大型语言模型进行数据增强在跨语言常识推理中的潜力，发现GPT-4生成的合成数据性能优于其他模型。
通过问题演化和多样化推理路径的数据增强，创建了AugGSM8K数据集，验证了大型语言模型的数学推理有效性。
提出了一种新的数据集MathCodeInstruct，增强模型的数学推理能力，MathCoder模型在MATH和GSM8K数据集上取得了最新得分。
MetaMath模型专注于数学推理，表现优于开源语言模型，LLaMA-2 7B模型展示了其在GSM8K和MATH基准测试中的出色能力。
构建了多语种数学推理指令数据集MGSM8KInstruct，提出不同训练策略，开发了MathOctopus模型，其在少样本情况下表现优于传统模型。

❓

延伸问答

大型语言模型在数学推理方面存在哪些不足？

大型语言模型在实现真正的人工智能通用智能上存在差距，特别是在数学推理能力方面表现不足。

如何提升大型语言模型的数学推理能力？

通过丰富数据环境和引入新的数学数据集，采用精调数学专用语言模型的协议，可以显著提升模型性能。

MathGenieLM系列模型在数学推理数据集上的表现如何？

MathGenieLM系列模型在GSM8K和MATH数据集上表现优异，特别是MathGenieLM-InternLM2在GSM8K上达到了87.7%的准确率。

什么是Unit Consistency Programs（UCPs），它们的作用是什么？

UCPs是一种系统的方法，用于解决大型语言模型在数学问题中单位一致性的问题，通过为每个问题开发单位规范和验证程序来实现。

数据增强在跨语言推理中的有效性如何？

研究表明，利用大型语言模型进行数据增强在跨语言常识推理中有效，特别是GPT-4生成的合成数据性能优于其他模型。

MathCoder模型在数学推理任务中的表现如何？

MathCoder模型在MATH和GSM8K数据集上取得了最新得分，表现超过了ChatGPT-3.5和PaLM-2，甚至在竞争级别的MATH数据集上超过了GPT-4。

🏷️