本研究开发了一种伪注释管道,利用手语视频和英语生成可能的注释,包括时间间隔和手势分类。通过建立基线模型,取得了在手语数据集上的最佳表现。专业翻译人员为ASL STEM Wiki的近500个视频进行了注释,并发布了300小时的伪注释数据,以支持手语生成系统的改进。
本文介绍了一种对比姿态-肌电预训练(CPEP)框架,旨在提升基于肌电信号的手势分类性能。通过对低质量数据与高质量数据的对齐,CPEP提高了表示质量,实现了零样本分类。实验结果显示,该模型在已知手势分类上提高了21%,在未知手势分类上提高了72%。
本文介绍了一种自我中心图像数据集,包含11,243个日常活动中手与物体的交互标签。研究提出了上下文感知的数据增强技术和手物分割模型,以提升手势分类、视频活动识别及3D重建等任务的性能,并探讨了基于深度学习的手势识别方法在AR和VR环境中的应用潜力。
完成下面两步后,将自动完成登录并继续当前操作。