小红花·文摘

本研究提出了一种新的图表假设问答（HQA）任务，解决了现有基准测试中多模态大型语言模型（MLLMs）输出偏差的问题。通过HAI方法低成本生成多样化的HQA数据，结果表明当前模型在HQA任务上面临泛化挑战和推理性能不平衡。