本研究提出了一种基于半球视场LiDAR传感器的人体分割与动作分类方法。该方法利用MaskDINO模型,能够有效检测和分割人体,并识别行走、挥手和坐下等动作,展现出良好的性能和应用潜力。
本文提出了一种基于一维U-Net和Transformer编码器的视频时间精准行动检测模型,结合锐度感知最小化和混合数据增强方法进行训练,在SoccerNet-v2数据集上取得最佳性能。同时,研究了多模态音频和视频的动作定位与分类,提升了平均精度。
完成下面两步后,将自动完成登录并继续当前操作。