独立推理单元用于知识基础的视觉问答

本研究聚焦于知识基础的视觉问答中现有方法在复杂多模态线索建模方面的不足，特别是隐式嵌入导致的可解释性和泛化能力缺失。通过提出独立推理单元（IIU），该方法对内模态信息进行功能独立的分解，显著提升了模型对不同数据的泛化能力。实验结果显示，IIU模型在标准数据集上实现了新的最佳性能，提升幅度达3%。

本研究分析了基于知识的视觉问答，发现结合任务特定模型、预训练语言模型和外部知识检索模型可以取得良好效果。预训练语言模型在1跳推理方面较强，但在2跳推理方面不如精调的神经网络模型。预训练语言模型在与知识库相关的问题上优于神经网络模型，但不能代替对外部知识的需求。