DOMINO: 多步视觉语言推理的双系统

通过一个包含系统 1 和系统 2 的双系统，本论文提出了一种用于多步骤多模态推理的方法，其中系统 1 用于提取视觉信息，系统 2 用于深入推理。通过实验证明，我们的方法在图表数据集上与之前的工作相比表现出竞争力，在多步骤推理的少量数据上通过微调系统 2 模块（LLaMA-2 70B），我们的方法的准确性得到进一步提升，并在具有人工提出问题的挑战性数据集上超过最佳全监督端到端方法 5.7%...

本文提出了一种用于多步骤多模态推理的方法，系统1提取视觉信息，系统2深入推理。实验证明，该方法在图表数据集上表现出竞争力，在少量数据上通过微调系统2模块，准确性得到进一步提升，并在具有人工提出问题的挑战性数据集上超过最佳全监督端到端方法5.7%以及具有FlanPaLM（540B）的流水线方法7.5%。