Boter: 基于知识的 VQA 的知识选择和问答引导

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本研究分析了基于知识的视觉问答,发现结合任务特定模型、预训练语言模型和显式的外部和视觉知识检索模型效果良好。预训练语言模型在1跳推理方面较强,但在2跳推理方面不如精调的神经网络模型。预训练语言模型在与知识库相关的问题上优于神经网络模型,但不能代替对外部知识的需求。

🎯

关键要点

  • 本研究分析了基于知识的视觉问答。
  • 研究问题包括显式有监督检索相关知识的可行性、任务特定模型和预训练语言模型的表现、预训练语言模型的隐式知识是否足够。
  • 将特定任务模型与预训练语言模型及显式知识检索模型结合可以取得良好效果。
  • 预训练语言模型在1跳推理方面表现较强,但在2跳推理方面不如精调的神经网络模型。
  • 预训练语言模型在与知识库相关的问题上优于神经网络模型,显示其隐式知识的有效性。
  • 预训练语言模型不能替代对外部知识的需求。
➡️

继续阅读