以查询为中心的音频-视觉认知网络用于瞬间检索、分割和步骤字幕生成

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本研究提出了一种查询为中心的音频-视觉认知网络(QUAG),旨在解决多模态视频检索中用户偏好内容学习的不足。QUAG通过全球对比对齐和局部细粒度交互,提升音视频内容的感知能力,准确识别用户期望的内容,并在HIREST数据集上取得了优异的表现。

🎯

关键要点

  • 本研究提出了一种查询为中心的音频-视觉认知网络(QUAG)。
  • QUAG旨在解决多模态视频检索中用户偏好内容学习的不足。
  • 该网络通过全球对比对齐和局部细粒度交互提升音视频内容的感知能力。
  • QUAG能够准确识别用户期望的内容。
  • QUAG在HIREST数据集上取得了优异的表现,达到了最新的技术水平。
  • QUAG具有良好的推广能力。
➡️

继续阅读