该研究提出了一种基于视觉的传感器放置方法,通过实时2D姿势估计派生的骨架数据来确定最佳传感器位置,改进了数据匿名化,支持多模态分类方法,显著推进了人体活动识别领域。
该研究提出了一种新的模型不可知方法,利用大型语言模型和多模态文本描述生成详细的视频描述,成功地应用于视频理解任务,并为多模态分类提供了新的研究方向。
完成下面两步后,将自动完成登录并继续当前操作。