以查询为中心的音频-视觉认知网络用于瞬间检索、分割和步骤字幕生成

💡 原文中文,约700字,阅读约需2分钟。
📝

内容提要

本研究提出了一种查询中心的音频-视觉认知网络(QUAG),旨在提升多模态视频检索中的用户偏好学习。QUAG通过全球对比对齐和局部细粒度交互增强音视频内容的感知能力,并利用深层查询进行时间通道过滤,以准确识别用户期望的内容。实验结果表明,QUAG在HIREST数据集上表现优异,具备良好的推广能力。

🎯

关键要点

  • 本研究提出了一种以查询为中心的音频-视觉认知网络(QUAG),旨在提升多模态视频检索中的用户偏好学习。

  • QUAG通过全球对比对齐和局部细粒度交互增强音视频内容的感知能力。

  • 该网络利用深层查询进行时间通道过滤,以准确识别用户期望的内容。

  • 实验结果表明,QUAG在HIREST数据集上表现优异,具备良好的推广能力。

🏷️

标签

➡️

继续阅读