BriefGPT - AI 论文速递 ·

JARViS：使用统一的演员场景上下文关系建模检测视频中的动作

💡 原文中文，约1800字，阅读约需5分钟。

📝

内容提要

本文探讨视频动作检测（VAD），强调分类的重要性高于演员定位。通过减少对演员的偏见，关注动作类别相关的上下文，改进分类效果。研究展示了多种新模型，如SAFSAR和基于姿势增强的视觉语言模型，在多个基准测试中表现优异，提升了视频理解和动作识别的准确性。

🎯

❓

视频动作检测（VAD）旨在检测视频中的演员并对其动作进行分类。

因为先前的方法优先考虑演员区域，常常忽视准确分类所需的上下文信息。

SAFSAR模型通过3D特征提取和特征融合方案，显著提升了少样本动作识别的性能。

该模型在UCF-101和HMDB-51数据集上分别达到92.81%和73.02%的准确率。

该框架用于零样本动作识别，将视频数据和文本标签进行联合编码，构建视觉和语义表示之间的共享知识空间。

该方法在社交活动识别中表现出色，具有良好的泛化能力，能够在最少标记数据的情况下实现鲁棒性表现。

🏷️