VideoDistill: 视频问答的语言感知视觉蒸馏

原文约200字,阅读约需1分钟。发表于:

通过受到人类认知和学习模式的启发,我们提出了一种视频问题回答(VideoQA)的框架 VideoDistill,该框架在视觉感知和答案生成过程中具有语言感知(即以目标驱动为特征)的行为,通过思考、观察和回答的方式生成与问题相关的显著图像。

通过VideoDistill框架,研究人员提出了一种视频问题回答的方法,该方法结合了视觉感知和语言感知,生成与问题相关的显著图像。

相关推荐 去reddit讨论