本文介绍了一种新方法,通过大型多模态模型(LMM)结合图像和文字指令进行推理,提升了模型在模糊视觉输入下的鲁棒性和可解释性。研究表明,结合视觉和文本信息的推理优于单一模态,并提出了多模态图表助手(MMCA)和基准测试(MMC-Benchmark)以评估图表理解能力。实验结果显示,现有模型在图表解释上存在局限性,需进一步提升推理能力。
完成下面两步后,将自动完成登录并继续当前操作。