Ask2Loc: Learning to Locate Instructional Visual Answers by Asking Questions
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了In-VAL任务,旨在通过Ask2Loc框架在指导性视频中定位特定片段。该框架结合聊天、重写和搜索模块,有效应对用户意图模糊等挑战,性能提升最高达到14.91(mIoU)。
🎯
关键要点
- 本研究提出了In-VAL任务,旨在通过Ask2Loc框架在指导性视频中定位特定片段。
- Ask2Loc框架结合了聊天、重写和搜索模块,有效应对用户意图模糊等挑战。
- 该框架在In-VAL任务上的性能提升最高达到14.91(mIoU)。
➡️