该论文提出了一种基于音频和视频两种模态的混合融合深度学习方法,用于提高公共场所的人类活动识别和暴力检测的准确性。该方法在验证数据上达到96.67%的准确率,成功检测出52个视频,可应用于人体动作识别和暴力检测。
完成下面两步后,将自动完成登录并继续当前操作。