小红花·文摘

麻省理工学院研究人员教AI模型解读图表

MIT News - Computer Science and Artificial Intelligence Laboratory (CSAIL) ·

EncQA：基于视觉编码的图表视觉语言模型基准评估

Apple Machine Learning Research ·

本研究提出了ChartCards框架，以解决多模态大语言模型在图表理解中的数据需求问题。通过合成图表信息生成元数据，构建的MetaChart数据集显著提升了模型性能，文本到图表检索和图表到表格转化任务的性能分别提高了17%和28%。

ChartCards：用于多任务图表理解的图表元数据生成框架

BriefGPT - AI 论文速递 ·

ICLR 2025 Oral | IDEA联合清华北大提出ChartMoE：探究下游任务中多样化对齐MoE的表征和知识

机器之心 ·

本文介绍了图表理解和推理的研究进展，包括强化学习模型UniChart、图表视觉问答任务的分类法、新方法SIMPLOT和VProChart框架。这些研究通过数据增强和大型语言模型提高了图表问答的准确性，解决了复杂逻辑推理的问题，并在多个基准数据集上表现优越。

RealCQA-V2：视觉前提证明

BriefGPT - AI 论文速递 ·

本研究提出了ChartLlama模型，通过创建高质量的指令调整数据集，显著提升了图表理解能力。开发的ChartX评估集涵盖多种图表类型和任务，验证了ChartVLM在图表相关能力上的优势。同时，研究还提出了ChartMimic基准测试，评估多模态模型的视觉理解和代码生成能力，显示出当前模型在图表理解方面的不足，强调了未来研究的必要性。

$C^2$: 可扩展的基于大语言模型的图表生成自动反馈

BriefGPT - AI 论文速递 ·

变压器革新图表理解：最新进展与未来前景

DEV Community ·

本研究介绍了ChartReader和UniChart等多模态模型，旨在提升图表理解能力。通过强化学习和高质量数据集，这些模型在图表问答和总结任务中表现优异。研究还提出了ChartX评估集和CharXiv，揭示了现有模型在图表理解中的局限性，强调了未来研究的必要性。

ChartMoE：用于高级图表理解的专家混合连接器

BriefGPT - AI 论文速递 ·

本文介绍了ChartSumm数据集，包含84,363个图表及其元数据，旨在提升图表理解能力。研究表明，现有语言模型在图表解释上存在局限性。通过开发多模态模型和基准测试，推动了图表理解的研究，特别是ChartMimic和CharXiv的提出，强调了对复杂图表的真实评估需求。

CHARTOM：多模态大语言模型的视觉理论认知基准

BriefGPT - AI 论文速递 ·

本文探讨了多模态大型语言模型（MLLMs）在图表理解中的应用，介绍了CHOPINLLM模型，采用双阶段训练方法以提升图表问答的准确性。同时，研究开发了多模态图表助手（MMCA）和多模态图表基准（MMC-Benchmark），评估现有模型的局限性并提出改进方向。通过高质量数据集和生成方法，显著提高了图表理解能力，展示了多模态模型在视觉语言任务中的潜力。

通过可视化参考指导调整，推进图表问答中的多模态大型语言模型

BriefGPT - AI 论文速递 ·

本文介绍了一种名为VDLM的模型，旨在提升大型视觉语言模型在二维矢量图形推理中的表现。通过使用可伸缩矢量图形（SVG），VDLM能够更好地处理视觉细节，增强零样本性能。同时，研究评估了该模型在图表理解和视频对齐等任务中的优势与局限性，强调了进一步改进的必要性。

VGBench：对矢量图形理解和生成的大型语言模型评价

BriefGPT - AI 论文速递 ·

本文介绍了一项名为文档层次的图表问答（DCQA）的新任务，旨在通过文档布局分析提取图表并进行问答。研究开发了强大的问题-答案生成引擎，提升了图表视觉问答的能力，并提出了新型的图表问答模型，经过广泛实验验证，模型在多个数据集上表现优异，为图表理解和多模态模型的发展提供了新思路。

揭示真相：LLM 真的懂图表吗？对一致性和健壮性的深入研究

BriefGPT - AI 论文速递 ·

本文介绍了一种新方法，通过大型多模态模型（LMM）结合图像和文字指令进行推理，提升了模型在模糊视觉输入下的鲁棒性和可解释性。研究表明，结合视觉和文本信息的推理优于单一模态，并提出了多模态图表助手（MMCA）和基准测试（MMC-Benchmark）以评估图表理解能力。实验结果显示，现有模型在图表解释上存在局限性，需进一步提升推理能力。

多模态自学：使用语言模型进行合成抽象图像和视觉推理指导

BriefGPT - AI 论文速递 ·

本文介绍了多模态评估集ChartX及其新模型ChartVLM，评估了多种图表类型和任务，显示ChartVLM在图表理解上优于其他模型。此外，研究提出了ChartMimic基准，评估大型多模态模型的视觉代码生成能力，强调了视觉理解和跨模态推理中的挑战。实验揭示了现有模型在图表理解中的局限性，并为未来研究提供了方向。

CharXiv：多模式 LLM 模型中现实图表理解的不足之处的概览

BriefGPT - AI 论文速递 ·

本研究提出了多种基于视觉语言模型的图表理解和自动生成自然语言摘要的方法，旨在帮助视力受损用户获取数据可视化信息。通过深度学习和图像处理技术，开发了多个系统和数据集，提高了图表分类和信息提取的准确性。

ChartFormer: 将图表图像转换为触觉可访问的 SVG 的大型视觉语言模型

BriefGPT - AI 论文速递 ·

本研究提出了多种图表理解模型，如ChartAssistant和UniChart，显著提升了图表问答和总结的性能。InstructGraph框架通过指令调整增强了大型语言模型的图推理能力。此外，研究开发了基准测试和数据集，以评估模型在图形理解方面的表现，并提出了新的预训练目标以提高模型的解释能力。

ChartInstruct: 图表理解和推理的指导调优

BriefGPT - AI 论文速递 ·