以查询为中心的音频-视觉认知网络用于瞬间检索、分割和步骤字幕生成
原文中文,约700字,阅读约需2分钟。
📝
内容提要
本研究提出了一种查询中心的音频-视觉认知网络(QUAG),旨在提升多模态视频检索中的用户偏好学习。QUAG通过全球对比对齐和局部细粒度交互增强音视频内容的感知能力,并利用深层查询进行时间通道过滤,以准确识别用户期望的内容。实验结果表明,QUAG在HIREST数据集上表现优异,具备良好的推广能力。
🎯
关键要点
-
本研究提出了一种以查询为中心的音频-视觉认知网络(QUAG),旨在提升多模态视频检索中的用户偏好学习。
-
QUAG通过全球对比对齐和局部细粒度交互增强音视频内容的感知能力。
-
该网络利用深层查询进行时间通道过滤,以准确识别用户期望的内容。
-
实验结果表明,QUAG在HIREST数据集上表现优异,具备良好的推广能力。
🏷️