将视频进行编号:像翻阅漫画一样进行时间定位
📝
内容提要
本研究解决了视频大语言模型在视频时间定位(VTG)任务中的局限性,提出了一种新颖的方法——数字提示(NumPro),通过为每个视频帧添加唯一的数字标识符,增强视觉理解与时间定位的结合。实验结果表明,NumPro在不增加计算开销的情况下,显著提升了最先进的Vid-LLMs在VTG任务上的表现,设立了新的状态-of-the-art标准。
➡️