基于开放集和知识的视觉问答与推理路径

原文约300字,阅读约需1分钟。发表于:

知识引导的视觉问题回答(KB-VQA)通过外部知识库的辅助,为图像和相关的文本问题提供正确答案。本文提出了一种名为 Graph pATH rankER(GATHER)的新型 KB-VQA 框架,通过构建图、修剪和路径级别排序,不仅能够准确检索答案,还提供解释推理过程的路径。通过在真实世界问题上的广泛实验,证明了该框架不仅能够在整个知识库上进行开放式问题回答,还能提供明确的推理路径。

GATHER是一种新型KB-VQA框架,通过构建图、修剪和路径级别排序,能够准确检索答案并提供解释推理过程的路径。该框架可在整个知识库上进行开放式问题回答,提供明确的推理路径。

基于开放集和知识的视觉问答与推理路径
相关推荐 去reddit讨论