小红花·文摘

本文探讨了多模态大型语言模型（MLLMs）在图表理解中的应用，介绍了CHOPINLLM模型，采用双阶段训练方法以提升图表问答的准确性。同时，研究开发了多模态图表助手（MMCA）和多模态图表基准（MMC-Benchmark），评估现有模型的局限性并提出改进方向。通过高质量数据集和生成方法，显著提高了图表理解能力，展示了多模态模型在视觉语言任务中的潜力。