BDIQA:一个探索通过心智理论进行认知推理的视频问答新数据集
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本研究提出了一种新颖的视频理解任务方法,将基于知识的问题回答融合进来,并提出了一个关于情景喜剧的视频数据集。该数据集融合了视觉、文本和时间的连贯思维,需要观看该系列影片的体验知识才能回答基于知识的问题。同时,本文提出了一种能够将视觉和文本视频内容与剧集相关的具体知识相结合的视频理解模型。主要发现是融入知识可在视频问答方面产生卓越的改进,但仍需进一步研究提高准确度。
🎯
关键要点
- 本研究提出了一种新颖的视频理解任务方法,融合基于知识的问题回答。
- 提出了一个关于情景喜剧的视频数据集,包括24,282个由人类生成的问题-答案对。
- 该数据集融合了视觉、文本和时间的连贯思维,需要观看影片的体验知识来回答问题。
- 提出了一种视频理解模型,能够将视觉和文本内容与剧集相关的具体知识相结合。
- 主要发现包括:融入知识可在视频问答方面产生卓越的改进。
- 指出现有视频建模的局限性,表明“KnowIT VQA”仍远远落后于人类的准确度,具有较高的研究价值。
➡️