本研究提出了一种新的图表假设问答(HQA)任务,解决了现有基准测试中多模态大型语言模型(MLLMs)输出偏差的问题。通过HAI方法低成本生成多样化的HQA数据,结果表明当前模型在HQA任务上面临泛化挑战和推理性能不平衡。
完成下面两步后,将自动完成登录并继续当前操作。