本研究提出了MathCoder-VL,旨在解决多模态模型在数学推理中忽视数学图形细节的问题。通过图像到代码模型FigCodifier及数据集ImgCode-8.6M,合成数学图形并构建MM-MathInstruct-3M数据集,最终在多模态数学问题求解中取得了新成绩。
该研究提出了一种通过微调开源语言模型来增强其数学推理能力的方法,并介绍了一种生成包含数学问题和基于代码的解决方案的新颖高质量数据集的方法。研究人员开发了MathCoder模型,该模型能够生成基于代码的解决方案来解决具有挑战性的数学问题,并在MATH和GSM8K数据集上取得了最新得分,超过了其他开源方案,包括GPT-4。数据集和模型将在指定URL发布。
完成下面两步后,将自动完成登录并继续当前操作。