小红花·文摘

本文介绍了一种新方法，通过大型多模态模型（LMM）结合图像和文字指令进行推理，提升了模型在模糊视觉输入下的鲁棒性和可解释性。研究表明，结合视觉和文本信息的推理优于单一模态，并提出了多模态图表助手（MMCA）和基准测试（MMC-Benchmark）以评估图表理解能力。实验结果显示，现有模型在图表解释上存在局限性，需进一步提升推理能力。