本研究构建了名为DARai的多模态层次注释数据集,涵盖50名参与者在10种环境下的真实活动记录,提供丰富的传感器数据,支持机器学习模型在动作识别和未来操作预测方面的实验。
本研究针对动作识别模型在指导视频中的序数偏差问题,提出了动作遮罩和序列洗牌方法,并强调改进评估策略和开发灵活模型的重要性。
本研究提出无时间对齐匹配(TEAM)方法,以解决少样本动作识别中视频匹配精度不足的问题。TEAM通过固定模式标记表示视频,增强了对不同动作的处理灵活性,实验结果表明其在视频相似性测量上优于传统方法。
本研究提出了EgoSim,一种新型身体佩戴相机模拟器,能够生成佩戴者身体各部位的自我中心渲染图像。EgoSim利用真实运动捕捉数据,显著提升了运动跟踪、身体姿态估计和动作识别的表现,尤其在下半身动作识别方面具有重要意义。
本研究提出了一种新方法,通过调整视觉语言模型的温度参数,优化人类动作识别的分类性能,有效降低分布尾部影响,具有实用价值。
本研究提出了一种新型多流方法MD-BERT,用于在昏暗或低光视频中进行动作识别。通过动态特征融合和时间建模,MD-BERT有效捕捉上下文信息,性能优于现有方法,建立了新的技术基准。
本研究评估了三种先进的姿态转换模型在生成真实人类动作视频方面的表现,发现这些模型在动作识别和与参考视频一致性上存在局限性,尤其在训练数据分布外的动作和身份上表现较差。
老年人动作识别挑战赛将在WACV 2025会议上举行,旨在提升对老年人日常活动的识别能力。参赛者需利用转移学习对模型进行微调,数据集将于1月31日发布,提交截止日期为2025年2月15日。欢迎各界人士参与,推动AI在老年人护理中的应用。
本研究提出了一种名为Taylor Videos的新方法,旨在克服传统骨架序列在动作识别中的局限性。通过引入运动概念,Taylor转换的骨架增强了运动动态,但也揭示了现有挑战,强调了创新骨架建模技术的重要性。
本文提出了EventCrab框架,旨在解决事件驱动动作识别中的时间密集性与空间稀疏性问题。该框架结合了轻量级网络与重网络,设计了两种策略以挖掘事件点的时空特性,实验结果表明在多个数据集上性能显著提升。
本研究提出了一种基于分形几何的合成视频数据集生成方法,旨在解决视频动作识别中的数据短缺问题。该方法模拟真实视频特性,优化预训练过程,显著提升下游任务表现,效果与标准Kinetics预训练相当。
本研究提出了一种新颖的拓扑对称增强图卷积(TSE-GC)和多分支可变形时间卷积(MBDTC),有效解决了现有动作识别方法的不足。实验结果表明,该模型在多个数据集上表现优异,且参数量更少,效率更高。
本研究提出了“注意力图流”(AM Flow)方法,旨在解决视频分类中的预训练和长时间训练问题。通过引入时间处理单元,提升了动作识别的表现,并显著缩短了训练时间。AM流有效分离了空间与时间处理,取得了先进的结果。
本研究提出了一种新颖的教师-学生框架,通过多级特征蒸馏显著提升了模型在图像分类和动作识别任务上的性能,尤其是在不同数据集训练的情况下。
本研究提出了一种新方法,通过结合动作层次组织与上下文信息,显著提升动作识别效果。实验结果表明,该方法在相同超参数下的识别精度提高了17.12%,优于最新的预训练方法。
本研究提出利用大型视觉语言模型(LVLMs)提升视频监控系统的动作识别能力。实验结果显示,改进的自反采样方法在UCF-Crime数据集上显著提高了VideoLLaMA2的零样本性能,展现出广泛的应用潜力。
该研究提出了SpikMamba框架,结合脉冲神经网络与Mamba建模能力,通过事件相机捕获稀疏数据,显著提升人类动作识别性能。
动作识别在视频监控、体育分析和手势识别中非常重要。使用NVIDIA的TAO Toolkit可以高效训练模型。在Kaggle Notebook中,由于不支持Docker,需要使用NGC CLI。首先安装nvidia-pyindex和TAO Toolkit,然后注册NGC账户并配置CLI。这样可以下载和使用预训练模型,如ActionRecognitionNet,便于进行计算机视觉探索。
研究提出了一种新的时序融合图卷积网络,解决人类活动理解中的过度细分问题。通过谱归一化残差连接,改善边界估计,增强对新观察的有效性,降低过度自信风险,提升机器人在人机协作中的表现。实验显示,该方法在多个数据集上优于现有技术,显著提高了动作识别和分割性能。
本文介绍了一种高效的注意力模型,专用于动作识别和人体交互任务。该模型在不增加网络规模和计算成本的情况下提高了准确性,并在多个基准测试和MPII数据集上表现优异,达到了新的技术水平。通过实证分析,提出了新的精细识别方案。
完成下面两步后,将自动完成登录并继续当前操作。