小红花·文摘

本文介绍了Jaegar，一种基于连接的多转换器VQA模型，用于解决基于文档的视觉问答中的挑战。该模型利用RoBERTa large和GPT2-xl作为特征提取器，并通过将两个模型的输出进行连接来加强其表示能力，以减少计算复杂性和推理时间。实证结果表明，该模型在PDF-VQA数据集的C任务上具有竞争力的性能。