本文提出视觉前提证明(VPP)任务,通过将图表问答拆解为逻辑前提,提升模型的推理能力。研究表明,模型在图表推理方面优于结构理解和数据检索,强调了推理与视觉理解结合的重要性。
本研究提出了一种新数据合成方法CIT,旨在解决多模态大型语言模型在复杂图表问答中的视觉推理不足。实验结果显示,该方法显著提升了模型的推理能力。
该研究提出了GoT-CQA模型,通过思维图引导的构成推理解决了图表问答中的复杂推理问题。研究表明,GoT-CQA在复杂人类编写和推理问题上表现优越,有助于数据分析领域的发展。
完成下面两步后,将自动完成登录并继续当前操作。