跨模态一致性的统一框架用于人类活动识别
原文中文,约300字,阅读约需1分钟。发表于: 。本研究针对视频中人类活动识别面临的时空复杂性和上下文依赖性问题,提出了一种全面的多模态框架。通过引入新颖的组合查询机器(COMPUTER),该框架能够有效建模人与环境的交互,并通过一致性损失增强各模态间的预测一致性,从而显著提升活动识别的准确性。
本研究提出了一种基于深度神经网络的多模态人类活动识别算法HAMLET,通过分层架构和多头自我关注机制对单模态数据进行编码,使用全连接神经网络识别人类活动。HAMLET在三种人类活动数据集上表现更好,准确度达到95.12%和97.45%,UCSD-MIT数据集上的F1分数为81.52%。通过可视化注意力图,解释了HAR的注意机制影响。