使用丰富视觉编程问题评估多模态编程大型语言模型

原文约500字,阅读约需1分钟。

在代码编写过程中,开发人员通常利用视觉辅助工具更有效地传达概念。然而,最近在大型多模态模型方面的发展表明在视觉推理和数学任务方面取得了显著能力,但在研究这些模型是否能够有效地解释用于代码生成的视觉元素方面几乎没有相关工作。为此,我们提出了 MMCode,这是第一个用于在视觉丰富的环境中评估算法问题解决能力的多模态编码数据集,包含了 3548 个问题和 6620 张图片,这些数据来自于 10 个代码竞赛网站采集的现实世界的编程挑战,由于对推理能力的极高要求而具有显著的挑战性。我们的实验结果表明,现有最先进的模型在解决这些问题时存在困难。这些结果突显了缺乏强大的视觉 - 代码模型,我们希望 MMCode 可以成为这个领域未来工作的启示。该数据集和代码可以在提供的网址公开获取。

介绍了MMCode多模态编码数据集,用于评估算法在视觉丰富环境中解决问题的能力。数据集包含3548个问题和6620张图片,来自10个代码竞赛网站的编程挑战。实验结果显示,现有最先进的模型在解决这些问题时存在困难,表明缺乏强大的视觉-代码模型。作者希望MMCode能够启发未来的研究工作。

MMCode 多模态编码数据集 算法评估 视觉-代码模型 视觉丰富环境 语言模型
相关推荐 去reddit讨论