本研究提出了一种无训练的视频动作定位方法VideoGEM,利用预训练的图像和视频语言模型,通过动态调整层权重,分别处理动作、动词和对象提示,显著提高了动作定位精度,超越了现有最佳方法。
完成下面两步后,将自动完成登录并继续当前操作。