本研究提出了一种新的多语言训练范式LDP,旨在提升多语言视觉信息提取模型在非英语场景中的表现。通过有效利用单语预训练数据,LDP增强了跨语言泛化能力。实验结果表明,LDM模型在各项评估中超越了现有模型,并在单语言基准测试中表现出竞争力。
本文提出了一种用于多步骤多模态推理的方法,系统1提取视觉信息,系统2深入推理。实验证明,该方法在图表数据集上表现出竞争力,在少量数据上通过微调系统2模块,准确性得到进一步提升,并在具有人工提出问题的挑战性数据集上超过最佳全监督端到端方法5.7%以及具有FlanPaLM(540B)的流水线方法7.5%。
完成下面两步后,将自动完成登录并继续当前操作。