VideoGEM: Training-free Action Localization in Videos
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了一种无训练的视频动作定位方法VideoGEM,利用预训练的图像和视频语言模型,通过动态调整层权重,分别处理动作、动词和对象提示,显著提高了动作定位精度,超越了现有最佳方法。
🎯
关键要点
- 本研究提出了一种无训练的视频动作定位方法VideoGEM。
- VideoGEM利用预训练的图像和视频语言模型,通过动态调整层权重来处理动作、动词和对象提示。
- 该方法显著提高了动作定位的精度,超越了现有最佳方法。
- 研究表明,VideoGEM在视频中定位动作和事件的能力优于当前无训练的视频定位技术。
➡️