Ask2Loc: Learning to Locate Instructional Visual Answers by Asking Questions

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出了In-VAL任务,旨在通过Ask2Loc框架在指导性视频中定位特定片段。该框架结合聊天、重写和搜索模块,有效应对用户意图模糊等挑战,性能提升最高达到14.91(mIoU)。

🎯

关键要点

  • 本研究提出了In-VAL任务,旨在通过Ask2Loc框架在指导性视频中定位特定片段。
  • Ask2Loc框架结合了聊天、重写和搜索模块,有效应对用户意图模糊等挑战。
  • 该框架在In-VAL任务上的性能提升最高达到14.91(mIoU)。
➡️

继续阅读