VideoDistill: 视频问答的语言感知视觉蒸馏

原文约200字，阅读约需1分钟。发表于：。

通过受到人类认知和学习模式的启发，我们提出了一种视频问题回答（VideoQA）的框架 VideoDistill，该框架在视觉感知和答案生成过程中具有语言感知（即以目标驱动为特征）的行为，通过思考、观察和回答的方式生成与问题相关的显著图像。

通过VideoDistill框架，研究人员提出了一种视频问题回答的方法，该方法结合了视觉感知和语言感知，生成与问题相关的显著图像。