小红花·文摘

本研究提出了一种查询中心的音频-视觉认知网络（QUAG），旨在提升多模态视频检索中的用户偏好学习。QUAG通过全球对比对齐和局部细粒度交互增强音视频内容的感知能力，并利用深层查询进行时间通道过滤，以准确识别用户期望的内容。实验结果表明，QUAG在HIREST数据集上表现优异，具备良好的推广能力。