BDIQA:一个探索通过心智理论进行认知推理的视频问答新数据集

原文约300字,阅读约需1分钟。发表于:

本文介绍了 BDIQA,这是第一个探索 ToM 理论在 VideoQA 模型中认知推理能力的基准测试集,旨在填补当前 VideoQA 数据集与任务中机器 ToM 方面的不足,并通过实验得出了提高认知推理能力的两项指导原则。

本研究提出了一种新颖的视频理解任务方法,将基于知识的问题回答融合进来,并提出了一个关于情景喜剧的视频数据集。该数据集融合了视觉、文本和时间的连贯思维,需要观看该系列影片的体验知识才能回答基于知识的问题。同时,本文提出了一种能够将视觉和文本视频内容与剧集相关的具体知识相结合的视频理解模型。主要发现是融入知识可在视频问答方面产生卓越的改进,但仍需进一步研究提高准确度。

相关推荐 去reddit讨论