本文提出了一种用于多步骤多模态推理的方法,系统1提取视觉信息,系统2深入推理。实验证明,该方法在图表数据集上表现出竞争力,在少量数据上通过微调系统2模块,准确性得到进一步提升,并在具有人工提出问题的挑战性数据集上超过最佳全监督端到端方法5.7%以及具有FlanPaLM(540B)的流水线方法7.5%。
完成下面两步后,将自动完成登录并继续当前操作。