本研究分析了基于知识的视觉问答,发现结合任务特定模型、预训练语言模型和显式的外部和视觉知识检索模型效果良好。预训练语言模型在1跳推理方面较强,但在2跳推理方面不如精调的神经网络模型。预训练语言模型在与知识库相关的问题上优于神经网络模型,但不能代替对外部知识的需求。
完成下面两步后,将自动完成登录并继续当前操作。