通过大型视觉-语言模型的置信度实现零-shot动作定位
📝
内容提要
本研究解决了在无字幕视频中精确动作定位的难题,尤其是在缺乏大型视频标注数据集的情况下。文章提出了一种名为ZEAL的零-shot动作定位方法,利用大型语言模型内建的动作知识生成精准的动作描述,并通过视觉-语言模型生成帧级置信度评分,取得了显著的定位效果,推动了视频理解领域的发展。
🏷️
标签
➡️