小红花·文摘

本研究提出了一种语义驱动的搜索框架，解决长视频理解中文本查询与视觉元素之间的逻辑关系。通过定义四种逻辑依赖关系，动态更新帧采样分布，实现语义关键帧识别，显著提升了关键帧选择和视频问答任务的性能。