本研究提出了一种查询为中心的音频-视觉认知网络(QUAG),旨在解决多模态视频检索中用户偏好内容学习的不足。QUAG通过全球对比对齐和局部细粒度交互,提升音视频内容的感知能力,准确识别用户期望的内容,并在HIREST数据集上取得了优异的表现。
完成下面两步后,将自动完成登录并继续当前操作。