本研究提出了一种新颖的视频理解任务方法,将基于知识的问题回答融合进来,并提出了一个关于情景喜剧的视频数据集。该数据集融合了视觉、文本和时间的连贯思维,需要观看该系列影片的体验知识才能回答基于知识的问题。同时,本文提出了一种能够将视觉和文本视频内容与剧集相关的具体知识相结合的视频理解模型。主要发现是融入知识可在视频问答方面产生卓越的改进,但仍需进一步研究提高准确度。
完成下面两步后,将自动完成登录并继续当前操作。