本研究提出了一种无训练的视频动作定位方法VideoGEM,利用预训练的图像和视频语言模型,通过动态调整层权重,分别处理动作、动词和对象提示,显著提高了动作定位精度,超越了现有最佳方法。
本文提出了一种基于混合网络的面部动作单元检测方法,解决了面部表情解码中的空间表示、时间建模和AU相关性问题。研究还介绍了多模态感知跟踪器和基于融合的未剪辑视频动作定位方法,均在多个数据集上取得了显著的性能提升,证明了其在复杂条件下的鲁棒性。
完成下面两步后,将自动完成登录并继续当前操作。